Documentation has been updated: see help center and changelog in one place.

通用目标

查看在通用来源下你的请求会如何构造。

抓取其他网站(Home Depot、Idealo、Zillow、 Yandex, 百度等)使用我们的 universal 源。它接受带有 附加参数.

请求示例

在此示例中,API 将检索一个电商产品页面。

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "universal",
        "url": "https://sandbox.oxylabs.io/products/1"
    }'
输出示例
{
    "results": [
        {
            "content": "<!DOCTYPE html><html lang=\"en\">
            内容
            </html>",
            "created_at": "2024-07-01 11:35:14",
            "updated_at": "2024-07-01 11:35:15",
            "page": 1,
            "url": "https://sandbox.oxylabs.io/products/1",
            "job_id": "7213505428280329217",
            "status_code": 200
        }
    ]
}

我们在示例中使用同步 Realtime 集成方法。如果您想使用 Proxy Endpoint 或异步 Push-Pull 集成,请参阅 集成方法 部分。

请求参数值

通用

参数
说明
默认值

source

设置要使用的爬虫。

universal

url

指向任意页面的直接 URL(链接)。

-

callback_url

您的回调端点的 URL。 更多信息.

-

- 强制参数

附加

这些是我们 功能的参数.

参数
说明
默认值

geo_location

设置代理的地理位置以检索数据。查找受支持的位置 此处.

-

render

设置为时启用 JavaScript 渲染 html. 更多信息. 注意:如果您观察到成功率低或检索到空内容,请尝试添加此参数。

-

browser_instructions

定义您自己的浏览器指令,在渲染 JavaScript 时执行。 更多信息.

-

parse

设置为时返回解析数据 true,只要针对提交的 URL 页面类型存在专用解析器。

false

parsing_instructions

定义您自己的解析和数据转换逻辑,该逻辑将在 HTML 抓取结果上执行。阅读更多: 解析指令示例.

-

context: headers

传入您自己的 headers。了解更多 此处.

-

context: cookies

传入您自己的 cookies。了解更多 此处.

-

context: session_id

如果您希望在多个请求中使用相同的代理,可以通过此参数实现。只需将您的会话设置为任意字符串,我们会将代理分配给该 ID,并保留最多 10 分钟。之后,如果您使用相同的会话 ID 发起另一个请求,将为该会话 ID 分配新的代理。

-

context: http_method

将其设置为 post 如果您想通过 电商爬虫 API 向目标 URL 发起一个 POST 请求。了解更多 此处.

get

user_agent_type

设备类型和浏览器。完整列表可在 此处.

desktop

context: 内容

Base64 编码的 POST 请求正文。仅在 http_method 被设置为 post.

-

content_encoding

如果您要下载图像,请添加此参数。了解更多 此处.

base64

context: follow_redirects

设置为 true 以启用爬虫跟随重定向。默认情况下,重定向会被跟随,最多限制为 10 个链接,将整个链视为一次抓取任务。

true

context: successful_status_codes

定义自定义的 HTTP 响应代码(或多个),当出现这些代码时我们应将抓取视为成功并返回内容给您。如果您希望我们返回 503 错误页面或在其他一些非标准情况下,这可能很有用。

-

所有参数

在此示例中,包含了所有可用参数(尽管并非在同一请求中始终必要或兼容),以便让您了解如何格式化请求。

最后更新于

这有帮助吗?