构建 URL
遵循这些指南,您可以为爬取任务构建百度、Yandex 或 Wayfair 的 URL。
百度
将作业参数分配到 URL:
https://<subdomain>.baidu.<domain>/s?ie=utf-8&wd=<query>&rn=<limit>&pn=<calculated_start_page>在构建 URL 时,请遵循以下说明:
对搜索词进行编码: 搜索词必须进行 URL 编码。例如,空格应替换为
%20,该符号在 URL 中表示空格字符。计算起始页: 该
start_page参数现在对应要跳过的搜索结果数。使用以下等式limit*start_page-limit来计算该值。子域分配: 子域值取决于作业中提供的用户代理类型。如果用户代理类型包含 mobile,则子域值应为
m. 否则,应为www.查询参数: 根据子域值(
m或www),查询词的查询参数应相应调整(word用于m和wd用于www).
示例构建的 URL
移动端示例:
https://m.baidu.com/s?ie=utf-8&word=test&rn=10&pn=20桌面端示例:
https://www.baidu.cn/s?ie=utf-8&wd=test%20query&rn=13等效作业示例
已弃用 baidu_search source:
{
"source": "baidu_search",
"query": "test",
"domain": "com",
"limit": 5,
"start_page": 3,
"user_agent_type": "desktop"
}已更新 universal source:
{
"source": "universal",
"url": "https://www.baidu.com/s?ie=utf-8&wd=test&rn=5&pn=10",
"user_agent_type": "desktop"
}Yandex
将作业参数分配到 URL:
https://yandex.<domain>/search/?text=<query>&numdoc=<limit>&p=<start_page>&lr=<geo_location>在构建 URL 时,请遵循以下说明:
对搜索词进行编码: 搜索词必须进行 URL 编码。例如,空格应替换为
%20,该符号在 URL 中表示空格字符。起始页调整: 该
start_page的值必须减去 1。例如,如果期望的起始页为 3,则 URL 中表示页码的值必须为2.本地化: 如果域名为
ru或tr,则会添加一个额外的查询参数lr,其值为geo_location。对于其他域名,geo_location值位于查询参数rstr,其中在值前添加一个-符号。不再受支持: pages 参数不再受支持。必须通过在 URL 中更改当前页值单独提交作业。
构建的 URL 示例
https://yandex.ru/search/?text=test&numdoc=5&p=0&lr=100https://yandex.com/search/?text=test%201&numdoc=10&p=2&rstr=-100等效作业示例
已弃用 yandex_search source:
{
"source": "yandex_search",
"query": "test",
"domain": "com",
"limit": 5,
"start_page": 3,
"geo_location": 100,
"results_language": "en"
}已更新 universal source:
{
"source": "universal",
"url": "https://yandex.ru/search?text=adidas&numdoc=5&p=2&lr=100&lang=en"
}Wayfair
将作业参数分配到 URL:
https://www.wayfair.<domain>/keyword.php?keyword=<query>&itemsperpage=<limit>&curpage=<start_page>在构建 URL 时,请遵循以下说明:
对搜索词进行编码: 搜索词必须进行 URL 编码。例如,空格应替换为
%20,该符号在 URL 中表示空格字符。参数: 如果
limit等于48和start_page等于1,则必须在 URL 后追加以下附加参数:command=dosearchnew_keyword_search=true
构建的 URL 示例
https://www.wayfair.com/keyword.php?keyword=test&itemsperpage=24&curpage=1https://www.wayfair.fr/keyword.php?keyword=t%202&itemsperpage=48&curpage=1&command=dosearch&new_keyword_search=true等效作业示例
已弃用 wayfair_search source:
{
"source": "wayfair_search",
"query": "test",
"domain": "com",
"limit": 5,
"start_page": 3
}已更新 universal source:
{
"source": "universal",
"url": "https://www.wayfair.com/keyword.php?keyword=room&itemsperpage=5&curpage=10"
}最后更新于
这有帮助吗?

