Documentation has been updated: see help center and changelog in one place.

请求头、Cookie、方法

网页爬虫API通过使用我们团队预定义的头和Cookie来最大化网站解锁效率。

自定义头

如果您需要使用自己的头,可以通过添加 context:force_headers 参数并将其设置为 true 在提交爬取任务时。网页爬虫API会将您自定义的头与预定义头一起发送,然后使用它们访问网站。

代码示例

{
    "context": [
        {
            "key": "force_headers",
            "value": true
        },
        {
            "key": "headers",
            "value": {
                "Accept-Language": "en-US,en;q=0.5"
            }
        }
    ]
    "source": "universal",
    "url": "https://example.com",
}

如果您需要使用自己的 Cookie,可以通过添加 context:force_cookies 参数并将其设置为 true 在提交爬取任务时。网页爬虫API会将您自定义的Cookie与预定义的Cookie一起发送,然后使用它们访问网站。如果您还想重用相同的代理IP,请查看 proxy sessions 文档。

代码示例

{
    "context": [
        {
            "key": "force_cookies",
            "value": true
        },
        {
            "key": "cookies",
            "value": [
                {
                    "key": "NID", 
                    "value": "1234567890"
                }
            ]
        },
    ],
    "source": "universal",
    "url": "https://example.com",
}

HTTP 方法

universal source 默认使用 GET HTTP 方法。

如果您需要向目标网站发送数据,必须将 HTTP 方法设置为 POST 并提供一个 Base64 编码的 POST 请求主体。

代码示例

[
    {
        "key": "http_method",
        "value": "post"
    },
    {
        "key": "content",
        "value": "base64EncodedPOSTBody"
    }
]

最后更新于

这有帮助吗?