For the complete documentation index, see llms.txt. This page is also available as Markdown.

任意域名

查找适用于任何公开网站的专用和通用 Oxylabs 网页爬虫API 指南。

我们提供专门的网页爬虫API指南,适用于 电商网站, 搜索引擎, LLMs 和 AI, 视频数据, 房地产 平台,或者使用我们的 universal source 使用下面的指南。它支持 URL 以及 附加参数.

请求示例

在此示例中,API 将获取一个电商产品页面。

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "universal",
        "url": "https://sandbox.oxylabs.io/products/1"
    }'
输出示例
{
    "results": [
        {
            "content": "<!DOCTYPE html><html lang=\"en\">
            内容
            </html>",
            "created_at": "2024-07-01 11:35:14",
            "updated_at": "2024-07-01 11:35:15",
            "page": 1,
            "url": "https://sandbox.oxylabs.io/products/1",
            "job_id": "7213505428280329217",
            "status_code": 200
        }
    ]
}

我们使用同步的 Realtime 集成方法作为示例。如果您想使用 Proxy Endpoint 或异步 Push-Pull 集成,请参阅 集成方法 部分。

请求参数值

通用

参数
说明
默认值

source

设置爬虫。

universal

url

指向任何页面的直接 URL(链接)。

-

callback_url

您的回调端点 URL。 更多信息.

-

- 必填参数

附加

以下是我们 功能.

参数
说明
默认值

geo_location

将代理的地理位置设置为以检索数据。查找支持的位置 这里.

-

render

设置为 html. 更多信息. 注意:如果你观察到成功率较低或返回空内容,请尝试添加此参数。

-

browser_instructions

定义你自己的浏览器指令,这些指令会在渲染 JavaScript 时执行。 更多信息.

-

parse

设置为 true,只要提交的 URL 页面类型存在专用解析器即可。

false

parsing_instructions

定义你自己的解析和数据转换逻辑,它将在 HTML 抓取结果上执行。了解更多: 解析指令示例.

-

context: headers

传入你自己的 headers。了解更多 这里.

-

context: Cookie

传入你自己的 Cookie。了解更多 这里.

-

context: session_id

如果你想使用同一个代理发起多次请求,可以使用此参数。只需将你的会话设置为任意字符串,我们就会为这个 ID 分配一个代理,并最多保留 10 分钟。之后,如果你用相同的会话 ID 发起另一请求,将为该会话 ID 分配一个新的代理。

-

context: http_method

将其设置为 post 如果你想发起一个 POST 通过 电商爬虫 API 请求你的目标 URL。了解更多 这里.

get

user_agent_type

设备类型和浏览器。完整列表可在 这里.

desktop

context: 内容

Base64 编码 POST 请求正文。仅在以下情况下有用: http_method 设置为 post.

-

content_encoding

如果你正在下载图片,请添加此参数。了解更多 这里.

base64

context: follow_redirects

设置为 true 以启用爬虫跟随重定向。默认情况下,重定向最多跟随 10 个链接,并将整个链视为一个爬取任务。

true

context: successful_status_codes

定义一个自定义 HTTP 响应代码(或其中几个),对于这些代码,我们应将抓取视为成功,并将内容返回给你。如果你希望我们返回 503 错误页面,或在其他一些非标准情况下,这可能会很有用。

-

所有参数

在此示例中,包含了所有可用参数(尽管并非总是必需,或在同一请求中兼容),以便让你了解如何格式化请求。

最后更新于

这有帮助吗?