Realtime
Oxylabs 网页爬虫 API 的 Realtime 集成。在任务提交到返回结果或错误期间保持 HTTPS 连接打开,使用 JSON 格式的有效载荷。
Realtime 是一种同步集成方式。它 需要保持连接打开 直到作业成功完成或返回错误为止。
提交作业
端点
用于提交作业的 Realtime API 端点为:
POST https://realtime.oxylabs.io/v1/queries输入
请在 JSON 有效负载中提供任务参数,如下示例所示。Python 和 PHP 示例包含注释以便说明。
curl --user "USERNAME:PASSWORD" \
'https://realtime.oxylabs.io/v1/queries' \
-H "Content-Type: application/json" \
-d '{"source": "universal", "url": "https://example.com", "geo_location": "United States"}'import requests
from pprint import pprint
# 构建负载。
payload = {
"source": "universal", # 你选择的来源,例如 "universal"
"url": "https://example.com", # 请查看你使用的具体来源的文档,确定应使用 "url" 还是 "query"
"geo_location": "United States", # 某些来源接受邮政编码和/或坐标
#"render" : "html", # 如果你想在页面上渲染 JavaScript,请取消注释
#"render" : "png", # 如果要对抓取的网页截图,则取消注释
#"parse" : true, # 检查哪些来源支持解析数据
}
# 获取响应。
response = requests.request(
'POST',
'https://realtime.oxylabs.io/v1/queries',
auth=('YOUR_USERNAME', 'YOUR_PASSWORD'), # 在此填写您的凭据
json=payload,
)
# 该请求不会返回带有作业状态和结果 URL 的响应,而是返回
# JSON response with results.
pprint(response.json())输出
Realtime API 在输出中支持以下结果类型:
HTML: 从目标网页抓取的原始 HTML 内容;
JSON: 从 HTML 内容解析的结构化数据,格式为 JSON;
PNG: 渲染页面的 PNG 格式截图的 Base64 编码。
XHR: XHR 请求 在加载页面时发出的请求。
Markdown: Markdown 网页的。
下表解释了基于 API 请求负载中包含的参数,默认和其他可用的结果类型。
渲染参数
解析参数
默认输出
可用输出
x
x
html
html
html
x
html
html
png
x
png
html, png
x
true
json
html, json
html
true
json
html, json
png
true
png
html, json, png
输出示例:
最后更新于
这有帮助吗?

