通用来源

查看使用通用来源时你的请求示例。

使用我们的爬取其他网站(Home Depot、Idealo、Zillow、 Yandex, Baidu等)的 universal 源。它接受 URL 以及 附加参数.

请求示例

在此示例中,API 将检索一个电商产品页面。

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "universal",
        "url": "https://sandbox.oxylabs.io/products/1"
    }'
chevron-right输出示例hashtag
{
    "results": [
        {
            "content": "<!DOCTYPE html><html lang=\"en\">
            内容
            </html>",
            "created_at": "2024-07-01 11:35:14",
            "updated_at": "2024-07-01 11:35:15",
            "page": 1,
            "url": "https://sandbox.oxylabs.io/products/1",
            "job_id": "7213505428280329217",
            "status_code": 200
        }
    ]
}

我们在示例中使用同步的 Realtime 集成方法。如果您想使用 Proxy Endpoint 或异步的 Push-Pull 集成,请参阅 集成方法 部分。

请求参数值

通用

参数
描述
默认值

source

设置爬虫。

universal

url

指向任意页面的直接 URL(链接)。

-

callback_url

您的回调端点的 URL。 更多信息.

-

- 必需参数

附加

这些是我们 功能.

参数
描述
默认值

geo_location

设置用于检索数据的代理地理位置。查找支持的地点 这里arrow-up-right.

-

render

设置为时启用 JavaScript 渲染 html. 更多信息. 注意:如果您观察到成功率低或检索到空内容,请尝试添加此参数。

-

browser_instructions

定义在渲染 JavaScript 时执行的自定义浏览器指令。 更多信息.

-

parse

设置为时返回解析后的数据 true,只要为提交 URL 的页面类型存在专用解析器。

false

parsing_instructions

定义将在 HTML 抓取结果上执行的自定义解析和数据转换逻辑。阅读更多: 解析指令示例.

-

context: headers

传递您自己的头。了解更多 这里.

-

context: cookies

传递您自己的 Cookie。了解更多 这里.

-

context: session_id

如果您想对多个请求使用相同代理,可以使用此参数。只需将会话设置为任意字符串,我们将为该 ID 分配代理,并保持该代理最长 10 分钟。之后,如果您使用相同的会话 ID 发起另一个请求,将为该会话 ID 分配新代理。

-

context: http_method

将其设置为 post 如果您想通过电商爬虫 API 对目标 URL 发起 POST 请求。了解更多 这里.

get

user_agent_type

设备类型和浏览器。完整列表可在此找到 这里.

desktop

context: content

Base64 编码的 POST 请求体。仅在 http_method 设置为时有用 post.

-

content_encoding

如果您正在下载图片,请添加此参数。了解更多 这里.

base64

context: follow_redirects

设置为 true 以启用爬虫跟随重定向。默认情况下,重定向最多跟随 10 个链接,将整个链视为一个抓取作业。

true

context: successful_status_codes

定义自定义 HTTP 响应代码(或多个),当遇到这些代码时我们应将抓取视为成功并返回内容。这在您希望我们返回 503 错误页面或其他非标准情况时可能有用。

-

所有参数

在此示例中,包含了所有可用参数(尽管并非在同一请求中总是必要或兼容),以便让您了解如何格式化请求。

最后更新于

这有帮助吗?