Documentation has been updated: see help center and changelog in one place.

Realtime

Oxylabs 网页爬虫 API 的 Realtime 集成。在任务提交到返回结果或错误期间保持 HTTPS 连接打开,使用 JSON 格式的有效载荷。

Realtime 是一种同步集成方式。它 需要保持连接打开 直到作业成功完成或返回错误为止。

提交作业

端点

用于提交作业的 Realtime API 端点为:

POST https://realtime.oxylabs.io/v1/queries

输入

请在 JSON 有效负载中提供任务参数,如下示例所示。Python 和 PHP 示例包含注释以便说明。

curl --user "USERNAME:PASSWORD" \
'https://realtime.oxylabs.io/v1/queries' \
-H "Content-Type: application/json" \
-d '{"source": "universal", "url": "https://example.com", "geo_location": "United States"}'

输出

Realtime API 在输出中支持以下结果类型:

  • HTML: 从目标网页抓取的原始 HTML 内容;

  • JSON: 从 HTML 内容解析的结构化数据,格式为 JSON;

  • PNG: 渲染页面的 PNG 格式截图的 Base64 编码。

  • XHR: XHR 请求 在加载页面时发出的请求。

  • Markdown: Markdown 网页的。

你也可以检索 多种结果类型 在单个 API 响应中。

下表解释了基于 API 请求负载中包含的参数,默认和其他可用的结果类型。

渲染参数
解析参数
默认输出
可用输出

x

x

html

html

html

x

html

html

png

x

png

html, png

x

true

json

html, json

html

true

json

html, json

png

true

png

html, json, png

Realtime API 始终返回默认输出。要从同一 realtime 作业获取其他可用输出,请使用 Push-Pull 端点 并使用该作业 ID。请注意,作业 ID 可在每个 realtime 响应的头部以及响应体中找到。

输出示例:

最后更新于

这有帮助吗?