Push-Pull
了解 Oxylabs 网页爬虫 API 的 Push-Pull 集成方法。提交任务后,可在稍后使用 JSON 格式数据轮询结果端点。
单个任务
端点
POST https://data.oxylabs.io/v1/queries输入
curl --user "user:pass1" \
'https://data.oxylabs.io/v1/queries' \
-H "Content-Type: application/json" \
-d '{"source": "ENTER_SOURCE_HERE", "url": "https://www.example.com", "geo_location": "United States", "callback_url": "https://your.callback.url", "storage_type": "s3", "storage_url": "s3://your.storage.bucket.url"}'import requests
from pprint import pprint
# 构建负载。
payload = {
"source": "ENTER_SOURCE_HERE", # 选择的来源,例如 "universal"
"url": "https://www.example.com", # 检查具体来源应使用 "url" 还是 "query"
"geo_location": "United States", # 某些来源接受邮编或坐标
#"render" : "html", # 如果要在页面内渲染 JavaScript,则取消注释
#"render" : "png", # 如果要对抓取的网页截图,则取消注释
#"parse" : true, # 检查哪些来源支持解析数据
#"callback_url": "https://your.callback.url", # 使用回调监听时为必需项
"callback_url": "https://your.callback.url",
"storage_type": "s3",
"storage_url": "s3://your.storage.bucket.url"
}
# 获取响应。
response = requests.request(
'POST',
'https://data.oxylabs.io/v1/queries',
auth=('YOUR_USERNAME', 'YOUR_PASSWORD'), # 在此填写您的凭据
json=payload,
)
# 将美化后的响应打印到标准输出。
pprint(response.json())输出
数据字典
键
说明
类型
回调
输入
输出
检查任务状态
端点
输入
输出
状态值
参数
说明
检索任务内容
端点
输入
输出
渲染参数
解析参数
XHR 参数
默认输出
可用输出
批量查询
端点
输入
输出
获取回调器 IP 地址列表
端点
输入
输出
Scheduler
任务管家最后更新于
这有帮助吗?

