Realtime

Oxylabs 的 网页爬虫API 的 Realtime 集成。从任务提交到返回结果或错误,始终保持 HTTPS 连接开启,并使用 JSON 格式的负载。

Realtime 是一种同步集成方法。它用于可靠地处理大规模数据提取任务,而无需你管理请求分发或基础设施。它 需要保持连接打开 直到任务成功完成或返回错误。

任务提交

端点

用于任务提交的 Realtime API 端点是:

POST https://realtime.oxylabs.io/v1/queries

输入

请按照下面示例,将任务参数放在 JSON 有效负载中。Python 和 PHP 示例包含注释以便说明。

curl --user "USERNAME:PASSWORD" \
'https://realtime.oxylabs.io/v1/queries' \
-H "Content-Type: application/json" \
-d '{"source": "universal", "url": "https://example.com", "geo_location": "United States"}'

输出

Realtime API 在输出中支持以下结果类型:

  • HTML:从目标网页抓取的原始 HTML 内容;

  • JSON:从 HTML 内容解析出的结构化数据,采用 JSON 格式;

  • PNG:渲染后页面的 PNG 格式 Base64 编码截图。

  • XHR: XHR 请求 在页面加载期间发出的。

  • Markdown: Markdown 网页的。

你还可以检索 多个结果类型 ,并在单个 API 响应中获取。

此表根据 API 请求载荷中包含的参数说明默认和其他可用的结果类型:

渲染参数
解析参数
默认输出
可用输出

-

-

html

html

html

-

html

html

png

-

png

html, png

-

true

json

html, json

html

true

json

html, json

png

true

png

html, json, png

Realtime API 始终返回默认输出。要获取其他可用输出,请使用 {Push-Pull} 集成方法。

输出示例:

最后更新于

这有帮助吗?