构建 URL

了解如何为 Web Scraper API 目标(如 Baidu、Yandex 和 Wayfair)构建 URL。掌握 URL 编码、分页等内容。

遵循这些指南,您可以为百度、Yandex 或 Wayfair 构建用于网页爬取任务的 URL。

百度

将任务参数分配到 URL:

https://<subdomain>.baidu.<domain>/s?ie=utf-8&wd=<query>&rn=<limit>&pn=<calculated_start_page>

在构建 URL 时,请遵循以下说明:

  1. 对搜索词进行编码:搜索词必须进行 URL 编码。例如,空格应替换为 %20,它在 URL 中表示空格字符。

  2. 计算起始页start_page 参数现在对应于要跳过的搜索结果数量。使用下列等式 limit*start_page-limit 来计算该值。

  3. 子域分配:子域值取决于任务中提供的 user agent 类型。如果 user agent 类型包含 mobile,则子域值应为 m。否则,应为 www.

  4. 查询参数:取决于子域值(mwww),查询项的查询参数应相应调整(word 用于 mwd 用于 www).

示例构建的 URL

针对移动端:

https://m.baidu.com/s?ie=utf-8&word=test&rn=10&pn=20

针对桌面端:

https://www.baidu.cn/s?ie=utf-8&wd=test%20query&rn=13

等价的任务示例

已停用 baidu_search 来源:

已更新 universal 来源:

Yandex

将任务参数分配到 URL:

在构建 URL 时,请遵循以下说明:

  1. 对搜索词进行编码:搜索词必须进行 URL 编码。例如,空格应替换为 %20,它在 URL 中表示空格字符。

  2. 起始页调整start_page 的值必须减 1。例如,如果期望的起始页是 3,则 URL 中表示页码的值必须为 2.

  3. 本地化:如果域名为 rutr,则会添加一个额外的查询参数 lr 并使用 geo_location 值。对于其它域, geo_location 值位于查询参数 rstr下,其中在值前添加一个 - 符号。

  4. 不支持:pages 参数不再受支持。必须通过在 URL 中更改当前页值分别提交任务。

构建 URL 示例

等价的任务示例

已停用 yandex_search 来源:

已更新 universal 来源:

Wayfair

将任务参数分配到 URL:

在构建 URL 时,请遵循以下说明:

  1. 对搜索词进行编码:搜索词必须进行 URL 编码。例如,空格应替换为 %20,它在 URL 中表示空格字符。

  2. 参数:如果 limit 等于 48start_page 等于 1,则必须在 URL 后追加以下附加参数:

    1. command=dosearch

    2. new_keyword_search=true

构建 URL 示例

等价的任务示例

已停用 wayfair_search 来源:

已更新 universal 来源:

最后更新于

这有帮助吗?