构建 URL
了解如何为 Web Scraper API 目标(如 Baidu、Yandex 和 Wayfair)构建 URL。掌握 URL 编码、分页等内容。
遵循这些指南,您可以为百度、Yandex 或 Wayfair 构建用于网页爬取任务的 URL。
百度
将任务参数分配到 URL:
https://<subdomain>.baidu.<domain>/s?ie=utf-8&wd=<query>&rn=<limit>&pn=<calculated_start_page>在构建 URL 时,请遵循以下说明:
对搜索词进行编码:搜索词必须进行 URL 编码。例如,空格应替换为
%20,它在 URL 中表示空格字符。计算起始页:
start_page参数现在对应于要跳过的搜索结果数量。使用下列等式limit*start_page-limit来计算该值。子域分配:子域值取决于任务中提供的 user agent 类型。如果 user agent 类型包含 mobile,则子域值应为
m。否则,应为www.查询参数:取决于子域值(
m或www),查询项的查询参数应相应调整(word用于m和wd用于www).
示例构建的 URL
针对移动端:
https://m.baidu.com/s?ie=utf-8&word=test&rn=10&pn=20针对桌面端:
https://www.baidu.cn/s?ie=utf-8&wd=test%20query&rn=13等价的任务示例
已停用 baidu_search 来源:
已更新 universal 来源:
Yandex
将任务参数分配到 URL:
在构建 URL 时,请遵循以下说明:
对搜索词进行编码:搜索词必须进行 URL 编码。例如,空格应替换为
%20,它在 URL 中表示空格字符。起始页调整:
start_page的值必须减 1。例如,如果期望的起始页是 3,则 URL 中表示页码的值必须为2.本地化:如果域名为
ru或tr,则会添加一个额外的查询参数lr并使用geo_location值。对于其它域,geo_location值位于查询参数rstr下,其中在值前添加一个-符号。不支持:pages 参数不再受支持。必须通过在 URL 中更改当前页值分别提交任务。
构建 URL 示例
等价的任务示例
已停用 yandex_search 来源:
已更新 universal 来源:
Wayfair
将任务参数分配到 URL:
在构建 URL 时,请遵循以下说明:
对搜索词进行编码:搜索词必须进行 URL 编码。例如,空格应替换为
%20,它在 URL 中表示空格字符。参数:如果
limit等于48和start_page等于1,则必须在 URL 后追加以下附加参数:command=dosearchnew_keyword_search=true
构建 URL 示例
等价的任务示例
已停用 wayfair_search 来源:
已更新 universal 来源:
最后更新于
这有帮助吗?

