搜索

使用网页爬虫API爬取 Amazon 搜索结果。通过 JS 渲染、地理定位和示例获取商品标题、价格、评分等。

amazon_search 该 source 旨在检索 Amazon 搜索结果页面。要查看带有检索数据的响应示例,请下载 示例输出arrow-up-right HTML 格式的文件或查看结构化数据输出 此处.

circle-info

探索输出 数据字典 针对每个 Amazon 搜索功能,提供简要说明、截图、解析后的 JSON 代码片段,以及定义每个解析字段的表。使用页面右侧导航或向下滚动以浏览详细信息。

请求示例

在下面的代码示例中,我们发出请求以检索来自 amazon.com的结果,其中包括 2 搜索结果页面,从第 #2 页开始,搜索词为 nirvana tshirt。此外,搜索将被限制为类别 ID: 16391693031 并且价格以 USD 货币显示。

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "amazon_search",
        "domain": "com",
        "query": "nirvana tshirt",
        "start_page": 2,
        "pages": 2,
        "parse": true,
        "context": [
                {"key": "category_id", "value": "16391693031"},
                {"key": "currency", "value": "USD"},
                {"key": "refinements", "value": ["p_123:256097"]},
                {"key": "sort_by", "value": "featured"}
        ]
    }'

我们在示例中使用同步的 Realtime 集成方法。如果您希望使用 Proxy Endpoint 或异步的 Push-Pull 集成,请参阅 集成方法 部分。

请求参数值

通用

用于抓取 Amazon 搜索结果的基本设置和自定义选项。

参数
说明
默认值

source

设置要使用的爬虫。

amazon_search

query

要搜索的关键字或短语。

-

render

设置为时启用 JavaScript 渲染 html. 更多信息.

-

parse

设置为时返回已解析的数据 true. 探索输出 数据字典.

false

callback_url

您的回调端点的 URL。 更多信息.

-

user_agent_type

设备类型和浏览器。完整列表可在 此处.

desktop

context: 货币

设置货币。检查可用值 此处arrow-up-right.

-

- 必填参数

本地化

将结果适配到特定地理位置、域名、语言。

参数
说明
默认值

geo_location

交付到 位置。有关使用此参数的指南,请参阅 此处.

-

domain

Amazon 的域名本地化。可用域名的完整列表可在 此处.

com

locale

Accept-Language 请求头的值,用于设置 Amazon 页面界面的语言。 更多信息.

-

circle-exclamation

分页

用于管理搜索结果分页和检索的控制项。

参数
说明
默认值

start_page

起始页码。

1

pages

要检索的页数。

1

排序与筛选

用于控制搜索结果页面的排序和筛选。

参数
说明
默认值

sort_by

根据 Amazon 的可能值之一设置搜索结果页面的排序类型: "most_recent", "price_low_to_high", "price_high_to_low", "featured", "average_review", "bestsellers".

-

refinements

一个 列表 包含 Amazon 搜索细化参数的列表,用于对搜索结果应用特定筛选。这些参数对应 Amazon 的动态筛选选项(例如品牌、价格区间、特性),并遵循 Amazon 的内部参数格式,例如 p_123:256097p_n_feature_twenty-eight_browse-bin:98209020031.

由于筛选选项因类别而异且由 Amazon 动态生成,推荐的工作流程是:

  1. 首先,使用 parse: true 抓取目标 Amazon 搜索页面以发现可用的细化选项

  2. 从解析后的响应中提取所需的筛选参数

  3. 在后续请求中通过 refinements 字段使用这些参数以应用特定筛选

-

context: category_id

在特定 Amazon 节点(产品类别)中搜索商品。

-

context: merchant_id

搜索由特定卖家销售的商品。

-

结构化数据

chevron-rightamazon_search 结构化输出hashtag
circle-info

输出示例已缩短。

输出数据字典

API 返回包含从 Amazon 检索到的搜索结果的 HTML 或 JSON 对象。

HTML 示例

JSON 结构

所有搜索结果都包含在 results JSON 数组中。每个搜索结果包括以下组合的内容: 付费, 自然(organic), 建议, amazons_choices,instant_recommendations 列表。此外,可能存在变体,它们记录在 variations 键中,提供有关不同类型或类别产品的详细信息,例如各种型号、版本或版本号。

说明
类型

url

Amazon 搜索页面的 URL。

string

page

当前页码。

integer

pages

页面总数。

integer

query

使用的搜索查询。

string

results

包含搜索结果的字典。

object

results.paid

包含赞助产品及其详细信息的列表。

array

results.organic

包含自然产品及其详细信息的列表。

array

results.suggested

包含建议产品及其详细信息的列表。

array

results.amazons_choices

包含 Amazon's Choice(亚马逊精选)及其详细信息的列表。

array

refinements

此搜索页面上可用的筛选条件列表。

array

parse_status_code

解析作业的状态代码。您可以查看解析器状态代码的说明 此处arrow-up-right.

integer

total_results_count

针对搜索查询找到的结果总数。

integer

created_at

创建爬取作业的时间戳。

string

updated_at

爬取作业完成的时间戳。

string

job_id

与爬取作业关联的作业 ID。

string

status_code

爬取作业的状态代码。您可以查看爬虫状态代码的说明 此处.

integer

parser_type

用于解析数据的解析器类型。

string

circle-info

在以下各节中,如果结果类型有多于一项,解析后的 JSON 代码片段会被缩短。

付费

付费 搜索结果的该部分指在 Amazon 搜索结果中显示的内联广告内容。

说明
类型

url

产品的 URL。

string

asin

Amazon 标准识别号(ASIN)。

string

price

产品的价格。

float

title

产品的标题。

string

rating

产品的评分。

float

rel_pos

产品在搜索结果中的相对位置。

(要么 posrel_pos 存在)

integer

pos

表示在列表中位置的唯一指示符。(要么 posrel_pos 存在)

integer

货币

价格所使用的货币。

string

url_image

产品图片的 URL。

string

best_seller

表示该产品是否为畅销品。

boolean

price_upper

适用时的价格上限。

float

is_sponsored

表示该产品是否为赞助产品。

boolean

manufacturer

产品制造商的名称。

string

pricing_count

该产品的报价数量。

integer

reviews_count

该产品的评论数量。

integer

coupon_discount

折扣金额。

integer (optional)

coupon_discount_type

折扣类型: 名义值百分比.

string (optional)

is_amazons_choice

表示该产品是否被标记为「Amazon's choice」。

boolean

no_price_reason

指示价格缺失的原因(如果等于 0.0)。

string (optional)

sales_volume

特定产品的销售量或售出单位数。

string (optional)

is_prime

表示该产品是否符合 Amazon Prime 资格。

boolean

shipping_information

有关产品运输详情的信息。

string

自然(Organic)

自然(organic) 搜索结果的该部分指依据 Amazon 的搜索算法自然出现的非赞助内容。

名称
说明
类型

pos

表示列表中位置的唯一指示符。

integer

url

产品的 URL。

string

asin

Amazon 标准识别号(ASIN)。

string

price

产品的价格。

float

title

产品的标题。

string

rating

产品的评分。

float

货币

价格所使用的货币。

string

is_prime

表示该产品是否符合 Amazon Prime 资格。

boolean

url_image

产品图片的 URL。

string

best_seller

表示该产品是否为畅销品。

boolean

price_upper

适用时的价格上限。

float

is_sponsored

表示该产品是否为赞助产品。

boolean

manufacturer

产品制造商的名称。

string

sales_volume

特定产品的销售量或售出单位数。

string (optional)

pricing_count

该产品的定价数量。

integer

reviews_count

该产品的评论数量。

integer

coupon_discount

折扣金额。

integer (optional)

coupon_discount_type

折扣类型: 名义值百分比.

string (optional)

is_amazons_choice

表示该产品是否为 Amazon's choice。

boolean

price_strikethrough

任何折扣之前的原价。

float

shipping_information

交货日期和运费详情。

string

no_price_reason

指示价格缺失的原因(如果等于 0.0)。

string (optional)

variations

产品的不同版本或型号列表

数组

建议

建议 搜索结果中的该部分通常包含平台根据用户的搜索查询、浏览历史或购买行为推荐的产品列表。

说明
类型

url

产品的 URL。

string

asin

Amazon 标准识别号(ASIN)。

string

price

产品的价格。

float

title

产品的标题。

string

rating

产品的评分。

float

货币

价格所使用的货币。

string

url_image

产品图片的 URL。

string

best_seller

表示该产品是否为畅销品。

boolean

price_upper

适用时的价格上限。

float

is_sponsored

表示该产品是否为赞助产品。

boolean

manufacturer

产品制造商的名称。

string

pricing_count

该产品的报价数量。

integer

reviews_count

该产品的评论数量。

integer

coupon_discount

折扣金额。

integer (optional)

coupon_discount_type

折扣类型: 名义值百分比.

string (optional)

is_amazons_choice

表示该产品是否为 Amazon's choice。

boolean

pos

表示列表中位置的唯一指示符。

integer

is_prime

表示该产品是否符合 Amazon Prime 资格。

boolean

shipping_information

有关产品运输详情的信息。

string

sales_volume

特定产品的销售量或售出单位数。

string (optional)

no_price_reason

指示价格缺失的原因(如果等于 0.0)。

string (optional)

suggested_query

Amazon 在搜索结果中提供的建议查询。

string

Amazon's Choices

amazons_choices 该部分包含带有“Amazon's Choice”徽章并被平台推荐的产品,基于其被认为的质量和性价比。

说明
类型

url

产品的 URL。

string

asin

Amazon 标准识别号(ASIN)。

string

price

产品的价格。

float

title

产品的标题。

string

rating

产品的评分。

float

货币

价格所使用的货币。

string

url_image

产品图片的 URL。

string

best_seller

表示该产品是否为畅销品。

boolean

price_upper

适用时的价格上限。

float

is_sponsored

表示该产品是否为赞助产品。

boolean

manufacturer

产品制造商的名称。

string

pricing_count

该产品的报价数量。

integer

reviews_count

该产品的评论数量。

integer

coupon_discount

折扣金额。

integer (optional)

coupon_discount_type

折扣类型: 名义值百分比.

string (optional)

is_amazons_choice

表示该产品是否为 Amazon's choice。

boolean

pos

表示列表中位置的唯一指示符。

integer

is_prime

表示该产品是否符合 Amazon Prime 资格。

boolean

shipping_information

有关产品运输详情的信息。

string

sales_volume

特定产品的销售量或售出单位数。

string (optional)

no_price_reason

指示价格缺失的原因(如果等于 0.0)。

string (optional)

variations

产品的不同版本或型号列表

数组

变体

variations 该部分列出产品的不同版本或型号,提供指定类别中可用选项的详细概述。

说明
类型

asin

Amazon 标准识别号

string

title

变体标题

string

price

变体的价格

float

price_strikethrough

任何折扣或促销之前的原始价格

float

not_available

指示该变体当前是否不可用

boolean

最后更新于

这有帮助吗?