Documentation has been updated: see help center and changelog in one place.

通用目标 (Generic Target)

查看使用通用来源时您的请求将如何呈现。

使用我们的服务抓取其他网站(Home Depot、Idealo、Zillow、 Yandex, 百度 等)的站点。 universal 源。它接受 URL 以及 附加参数.

请求示例

在此示例中,API 将检索一个电商产品页面。

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "universal",
        "url": "https://sandbox.oxylabs.io/products/1"
    }'
输出示例
{
    "results": [
        {
            "content": "<!DOCTYPE html><html lang=\"en\">
            内容
            </html>",
            "created_at": "2024-07-01 11:35:14",
            "updated_at": "2024-07-01 11:35:15",
            "page": 1,
            "url": "https://sandbox.oxylabs.io/products/1",
            "job_id": "7213505428280329217",
            "status_code": 200
        }
    ]
}

在我们的示例中,我们使用同步的 Realtime 集成方法。如果您想使用 Proxy Endpoint 或异步的 Push-Pull 集成,请参阅 集成方法 部分。

请求参数值

通用

参数
说明
默认值

source

设置抓取器。

universal

url

指向任意页面的直接 URL(链接)。

-

callback_url

回调端点的 URL。 更多信息.

-

- 必填参数

其他

这些是我们 的 参数 功能.

参数
说明
默认值

geo_location

设置代理的地理位置以检索数据。查找受支持的位置 此处.

-

render

启用 JavaScript 渲染,当设置为 html. 更多信息. 注意:如果您观察到成功率低或检索到空内容,请尝试添加此参数。

-

browser_instructions

定义在渲染 JavaScript 时执行的自定义浏览器指令。 更多信息.

-

parse

当设置为以下值时返回解析后的数据 true,只要为提交的 URL 的页面类型存在专用解析器。

false

parsing_instructions

定义您自己的解析和数据转换逻辑,该逻辑将在 HTML 抓取结果上执行。阅读更多: 解析指令示例.

-

context: headers

传入您自己的 headers。了解更多 此处.

-

context: cookies

传入您自己的 cookies。了解更多 此处.

-

context: session_id

如果您希望在多个请求中使用相同的代理,您可以通过使用此参数来实现。只需将您的 session 设置为任意字符串,我们会将一个代理分配给该 ID,并在最多 10 分钟内保留它。之后,如果您使用相同的 session ID 发起另一个请求,将为该特定 session ID 分配一个新代理。

-

context: http_method

将其设置为 post 如果您想通过 电商爬虫 API 向目标 URL 发起 POST 请求。了解更多 此处.

get

user_agent_type

设备类型和浏览器。完整列表可在 此处.

desktop

context: 内容

Base64 编码的 POST 请求主体。仅在 http_method 设置为时,这是必需的 post.

-

content_encoding

如果您正在下载图像,请添加此参数。了解更多 此处.

base64

context: follow_redirects

设置为 true 以启用爬虫跟随重定向。默认情况下,重定向会跟随最多 10 个链接,将整个链视为一次抓取作业。

true

context: successful_status_codes

定义一个或多个自定义 HTTP 响应码,在这些响应码下我们应将抓取视为成功并向您返回内容。如果您希望我们返回 503 错误页面或在其他一些非标准情况下,这可能会有用。

-

所有参数

在此示例中,包含了所有可用参数(尽管在同一请求中并不总是必要或兼容),以便让您了解如何格式化请求。

{
    "source": "universal", 
    "url": "https://example.com", 
    "user_agent_type": "desktop",
    "geo_location": "美国",
    "parse": true,
    "context": [
        {
            "key": "headers", 
            "value": {
                "Content-Type": "application/octet-stream", 
                "Custom-Header-Name": "custom header content"
            }
        }, 
        {
            "key": "cookies", 
            "value": [
                {
                    "key": "NID", 
                    "value": "1234567890"
                },
                {
                    "key": "1P JAR",
                    "value": "0987654321"
                }]
        },
        {
            "key": "follow_redirects",
            "value": true
        },
        {
            "key": "http_method", "value": "get"
        },
        {
            "key": "content",
            "value": "YmFzZTY0RW5jb2RlZFBPU1RCb2R5"
        },
        {
            "key": "successful_status_codes",
            "value": [808, 909]
        }]
}

最后更新于

这有帮助吗?