通用目标
查看在通用来源下你的请求会如何构造。
抓取其他网站(Home Depot、Idealo、Zillow、 Yandex, 百度等)使用我们的 universal 源。它接受带有 附加参数.
请求示例
在此示例中,API 将检索一个电商产品页面。
curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
"source": "universal",
"url": "https://sandbox.oxylabs.io/products/1"
}'import requests
from pprint import pprint
# 构建负载。
payload = {
'source': 'universal',
'url': 'https://sandbox.oxylabs.io/products/1',
}
# 获取响应。
response = requests.request(
'POST',
'https://realtime.oxylabs.io/v1/queries',
auth=('USERNAME', 'PASSWORD'),
json=payload,
)
# 该请求不会返回带有作业状态和结果 URL 的响应,而是返回
# 包含结果的 JSON 响应。
pprint(response.json())我们在示例中使用同步 Realtime 集成方法。如果您想使用 Proxy Endpoint 或异步 Push-Pull 集成,请参阅 集成方法 部分。
请求参数值
通用
参数
说明
默认值
- 强制参数
附加
这些是我们 功能的参数.
参数
说明
默认值
parse
设置为时返回解析数据 true,只要针对提交的 URL 页面类型存在专用解析器。
false
context:
session_id
如果您希望在多个请求中使用相同的代理,可以通过此参数实现。只需将您的会话设置为任意字符串,我们会将代理分配给该 ID,并保留最多 10 分钟。之后,如果您使用相同的会话 ID 发起另一个请求,将为该会话 ID 分配新的代理。
-
context:
内容
Base64 编码的 POST 请求正文。仅在 http_method 被设置为 post.
-
context:
follow_redirects
设置为 true 以启用爬虫跟随重定向。默认情况下,重定向会被跟随,最多限制为 10 个链接,将整个链视为一次抓取任务。
true
context:
successful_status_codes
定义自定义的 HTTP 响应代码(或多个),当出现这些代码时我们应将抓取视为成功并返回内容给您。如果您希望我们返回 503 错误页面或在其他一些非标准情况下,这可能很有用。
-
所有参数
在此示例中,包含了所有可用参数(尽管并非在同一请求中始终必要或兼容),以便让您了解如何格式化请求。
最后更新于
这有帮助吗?

