其他域名
这种数据类型是通用的并且可以应用于任何域名。它接受带有附加参数的 URL。您可以在 URL 部分找到所有可用参数的列表。
总览
以下是我们通过其他域支持的所有可用数据source
值的快速概述 。
universal_ecommerce
提交您喜欢的任意 URL。
取决于 URL。
URL
查询参数
source
universal_ecommerce
url
转到通用页面的直接 URL(链接)
-
user_agent_type
desktop
geo_location
locale
区域设置,正如接受语言标头所预期的一样。
render
content_encoding
base64
context
:
content
Base64 编码的 POST
请求正文。只有将 http_method
设为 post
时才有用。
-
context
:
cookies
传递自己的 cookies。
-
context
:
follow_redirects
表明您是否希望爬虫程序遵循重定向(带有目标 URL 的 3xx 响应)以获得重定向链末端的 URL 内容。
-
context
:
headers
传递自己的标头。
-
context
:
http_method
如果您希望通过 电商爬虫 API 程序向您的目标 URL 发出 POST
请求,则可以将其设置为 post
。
get
context
:
session_id
如果要在多个请求中使用同一个代理,则可以通过使用该参数来实现。只要将您的会话设置为您想要的任何字符串,我们就会为该 ID 分配一个代理,并最长保留 10 分钟。之后,如果使用相同的会话 ID 提出另一个请求,我们将为该特定会话 ID 分配一个新代理。
-
context
:
successful_status_codes
定义一个或几个自定义的 HTTP 响应代码,我们将根据此代码确定爬取是否成功,并将相关内容返回给您。如果您希望我们返回 503 错误页面,则该参数可能很有用,同时也适用于其他一些非标准的情况。
-
callback_url
-
parse
false
parser_type
将该值设置为 ecommerce_product
来访问我们的 AI-powered Adaptive Parser。
-
- 必须提供的参数
代码示例
在这个示例中,API 将检索一个电子商务产品页面。包括所有可用参数(尽管在同一个请求中并不总是必要的或兼容的),以便让您知道如何格式化您的请求:
{
"source": "universal_ecommerce",
"url": "https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html",
"user_agent_type": "desktop",
"geo_location": "United States",
"parse": true,
"parser_type": "ecommerce_product",
"context": [
{
"key": "headers",
"value": {
"Accept-Language": "en-US",
"Content-Type": "application/octet-stream",
"Custom-Header-Name": "custom header content"
}
},
{
"key": "cookies",
"value": [
{
"key": "NID",
"value": "1234567890"
},
{
"key": "1P JAR",
"value": "0987654321"
}]
},
{
"key": "follow_redirects",
"value": true
},
{
"key": "http_method", "value": "get"
},
{
"key": "content",
"value": "YmFzZTY0RW5jb2RlZFBPU1RCb2R5"
},
{
"key": "successful_status_codes",
"value": [808, 909]
}]
}
以上示例使用了 Realtime 集成方法。如果您想在您的查询中使用一些其他集成方法(如推拉或代理端点),请参考集成方法部分。
形成URL
Wayfair
作业参数分配到URL:
https://www.wayfair.<domain>/keyword.php?keyword=<query>&itemsperpage=<limit>&curpage=<start_page>
当形成URL时,请遵循以下说明:
编码搜索词:搜索词必须进行
URL
编码。例如,空格应替换为%20
,这代表URL
中的空格字符。参数:如果
limit
等于48且start_page
等于1,则必须将以下附加参数附加到URL
:command=dosearch
new_keyword_search=true
生成的URL示例
https://www.wayfair.com/keyword.php?keyword=test&itemsperpage=24&curpage=1
https://www.wayfair.fr/keyword.php?keyword=t%202&itemsperpage=48&curpage=1&command=dosearch&new_keyword_search=true
等效作业示例
停用的Wayfair搜索源:
{
"source": "wayfair_search",
"query": "test",
"domain": "com",
"limit": 5,
"start_page": 3
}
更新后的
universal_ecommerce
源:
{
"source": "universal_ecommerce",
"url": "https://www.wayfair.com/keyword.php?keyword=room&itemsperpage=5&curpage=10"
}
Last updated
Was this helpful?