Documentation has been updated: see help center and changelog in one place.
Explore
LogoLogo
Oxylabs dashboardProduct
中文
  • Documentation
  • Help center
  • Changelog
中文
  • 总览
  • 代理
    • 集成教程
      • 动态住宅代理教程
        • AdsPower
        • Android
        • BitBrowser(比特浏览器)
        • ClonBrowser
        • Ghost Browser
        • Helium Scraper
        • Hubstudio
        • Incogniton
        • Kameleo
        • MuLogin
        • Multilogin
        • Octoparse
        • Oxy® Proxy 的 Chrome 代理扩展程序
        • ParseHub
        • Playwright
        • Puppeteer
        • Selenium
        • SwitchyOmega
        • Shadowrocket
        • VMLogin
        • VMMask
        • WebHarvy
      • 动态移动代理教程
        • AdsPower
        • Android
        • BitBrowser(比特浏览器)
        • ClonBrowser
        • Ghost Browser
        • Helium Scraper
        • Hubstudio
        • Incogniton
        • Kameleo
        • MuLogin
        • Multilogin
        • Octoparse
        • Oxy® Proxy 的 Chrome 代理扩展程序
        • ParseHub
        • Playwright
        • Puppeteer
        • Selenium
        • SwitchyOmega
        • Shadowrocket
        • VMLogin
        • VMMask
        • WebHarvy
      • 静态数据中心代理教程
        • BitBrowser(比特浏览器)
        • FoxyProxy
        • Hubstudio
        • MuLogin
        • Oxy® 代理管理器
        • Proxifier
        • SwitchyOmega
        • VMMask
      • 动态数据中心代理集成教程
        • AdsPower
        • Hubstudio
        • MuLogin
        • VMMask
    • 静态数据中心代理
      • 企业
        • 入门指南
        • 代理列表
        • 提出请求
        • 企业-协议
        • 将 IP 列入白名单
          • 仪表板
          • RESTful
            • 获取白名单 IP 列表
            • 添加白名单 IP
            • 移除白名单的 IP
            • 正在保存更改(5 分钟冷却时间)
        • 数据中心代理 API
        • 代理轮换工具 - 可选
          • 使用代理轮换工具的会话控制
        • 响应代码
      • 自助服务
        • 入门指南
        • 发起请求
        • 代理列表
        • 代理轮换
        • 位置设置
        • 协议
        • 响应代码
        • 受限目标
    • ISP代理
      • 入门指南
      • 发起请求
      • 代理列表
      • 代理轮换
      • 位置设置
      • 协议
      • 响应代码
      • 受限目标
    • 住宅代理
      • 入门指南
      • 反向连接入口节点
        • 中国入口节点
      • 基本查询
      • 协议
      • 选择国家/地区
      • 选择州
      • 选择城市
      • 选择大洲
      • 会话控制
      • 具体国家/地区的入口节点
      • 端点生成器
      • 其他信息
      • 受限目标网站
      • 公共 API
    • 移动代理
      • 入门指南
      • 反向连接入口节点
        • 中国入口节点
      • 基本查询
      • 协议
      • 选择国家/地区
      • 选择大洲
      • 会话控制
      • 具体国家/地区的入口节点
      • 端点生成器
      • 其他信息
      • 受限目标网站
      • 公共 API
    • 数据中心代理
      • 代理列表
      • IP控制
      • 选择国家
      • 协议
      • 白名单
      • 响应代码
      • 受限目标
      • 公平使用政策
    • (传统!)动态数据中心代理
      • 入门指南
      • 提出请求
      • 选择国家/地区
      • 会话控制
      • 响应代码
      • 受限目标网站
  • 高级代理解决方案
    • 网页解锁器
      • 开始使用
      • 提出请求
        • 会话
        • 地理位置
        • 标头
        • Cookie
        • 自定义状态代码
        • POST 请求
        • JavaScript 渲染
      • 样例响应
      • 用量统计数据
  • 爬虫API
    • 入门
      • API 参考
        • 集成方法
          • Realtime
          • 推拉
          • 代理端口
        • 身份验证
        • 全局参数值
        • 响应代码
        • 用量统计
      • Postman
    • 电商爬虫 API
      • Amazon
        • 参数值
        • 结构化数据
      • Google Shopping
        • 参数值1
        • 结构化数据
      • AliExpress
      • 其他域名
        • 参数值
        • 下载图片
    • SERP 爬虫 API
      • Google
        • 参数值
        • 结构化数据
      • Bing
        • 参数值
      • 其他搜索引擎
    • 网络爬虫 API
      • 其他域名
        • 参数值
        • 下载图片
    • 任务管家 (Scheduler)
    • 自定义解析器 (Custom Parser)
      • 入门
      • 解析指令的示例
      • 函数列表
        • 函数示例
    • 无头浏览器 (Headless Browser)
      • JavaScript 渲染
      • 浏览器指令(测试版)
        • 指令列表
  • 有用链接
    • Oxylabs 仪表板
    • Discord社群
    • GitHub
  • 常见问题
  • 支持
    • 需要帮助?
Powered by GitBook
On this page
  • 概述
  • 代码示例
  • 查询参数
  • 形成URL
  • 百度
  • Yandex
  • 参数值
  • Geo_Location
  • HTTP_Method

Was this helpful?

  1. 爬虫API
  2. SERP 爬虫 API

其他搜索引擎

Previous参数值Next网络爬虫 API

Last updated 11 months ago

Was this helpful?

使用我们的universal源代码抓取其他搜索引擎。它接受URL以及附加参数。您可以在下表中找到可用参数的列表。

概述

以下是我们支持的所有可用数据源值与其他目标的快速概述。

来源
描述
结构化数据

universal

提交任何您喜欢的URL。

代码示例

在下面的示例中,我们发出请求以获取提供的百度URL的结果。

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "universal",
        "url": "http://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&ch=&tn=baidu&bar=&wd=adidas"
    }'
import requests
from pprint import pprint

# Structure payload.
payload = {
    'source': 'universal',
    'url': 'http://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&ch=&tn=baidu&bar=&wd=adidas'
}

# Get response.
response = requests.request(
    'POST',
    'https://realtime.oxylabs.io/v1/queries',
    auth=('user', 'pass1'),
    json=payload,
)

# Instead of response with job status and results url, this will return the
# JSON response with results.
pprint(response.json())
# URL has to be encoded to escape `&` and `=` characters:
# URL: http://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&ch=&tn=baidu&bar=&wd=adidas
# Encoded URL: http%3A%2F%2Fwww.baidu.com%2Fs%3Fie%3Dutf-8%26f%3D8%26rsv_bp%3D1%26rsv_idx%3D1%26ch%3D%26tn%3Dbaidu%26bar%3D%26wd%3Dadidas

https://realtime.oxylabs.io/v1/queries?source=universal&url=http%3A%2F%2Fwww.baidu.com%2Fs%3Fie%3Dutf-8%26f%3D8%26rsv_bp%3D1%26rsv_idx%3D1%26ch%3D%26tn%3Dbaidu&bar=&wd=adidas&access_token=12345abcde
<?php

$params = array(
    'source' => 'universal',
    'url' => 'http://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&ch=&tn=baidu&bar=&wd=adidas'
);

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, "https://data.oxylabs.io/v1/queries");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, json_encode($params));
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_USERPWD, "user" . ":" . "pass1");

$headers = array();
$headers[] = "Content-Type: application/json";
curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);

$result = curl_exec($ch);
echo $result;

if (curl_errno($ch)) {
    echo 'Error:' . curl_error($ch);
}
curl_close($ch);
{
    "source": "universal", 
    "url": "http://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&ch=&tn=baidu&bar=&wd=adidas"
}

以上示例使用了 集成方法。如果您想在您的查询中使用一些其他集成方法(如或点),请参考部分。

查询参数

参数
描述
默认值

source

universal

url

转到通用页面的直接 URL(链接)。

不适用

user_agent_type

desktop

geo_location

不适用

locale

区域设置,正如接受语言标头所预期的一样。

不适用

render

不适用

content_encoding

base64

context: content

Base64 编码的 POST 请求正文。只有将 http_method 设为 post 时才有用。

不适用

context: cookies

传递自己的 cookies。

不适用

context: follow_redirects

表明您是否希望爬虫程序遵循重定向(带有目标 URL 的 3xx 响应)以获得重定向链末端的 URL 内容。

不适用

context: headers

传递自己的标头。

不适用

context: http_method

如果您希望通过 网络爬虫 API 程序向您的目标 URL 发出 POST 请求,则可以将其设置为 post。

get

context: session_id

I如果要在多个请求中使用同一个代理,则可以通过使用该参数来实现。只要将您的会话设置为您想要的任何字符串,我们就会为该 ID 分配一个代理,并最长保留 10 分钟。之后,如果使用相同的会话 ID 提出另一个请求,我们将为该特定会话 ID 分配一个新代理。

不适用

context: successful_status_codes

定义一个或几个自定义的 HTTP 响应代码,我们将根据此代码确定爬取是否成功,并将相关内容返回给您。如果您希望我们返回 503 错误页面,则该参数可能很有用,同时也适用于其他一些非标准的情况。

不适用

callback_url

不适用

- 必须提供的参数

形成URL

百度

作业参数分配到URL:

https://<subdomain>.baidu.<domain>/s?ie=utf-8&wd=<query>&rn=<limit>&pn=<calculated_start_page>

当形成URL时,请遵循以下说明:

  • 编码搜索词:搜索词必须进行URL编码。例如,空格应替换为%20,这代表URL中的空格字符。

  • 计算起始页:start_page参数现在对应要跳过的搜索结果数量。使用公式 limit * start_page - limit 计算值。

  • 子域分配:子域值取决于作业中提供的用户代理类型。如果用户代理类型包含mobile,则子域值应为m。否则,应为www。

  • 查询参数:根据子域值(m或www),查询参数应相应调整(对于m为word,对于www为wd)。

示例生成的URL

  • 移动端:

https://m.baidu.com/s?ie=utf-8&word=test&rn=10&pn=20
  • 桌面端:

https://www.baidu.com/s?ie=utf-8&wd=test%20query&rn=13

等效作业示例

  • 停用的百度搜索源:

{
    "source": "baidu_search",
    "query": "test",
    "domain": "com",
    "limit": 5,
    "start_page": 3,
    "user_agent_type": "desktop"
}
  • 更新后的universal源:

{
    "source": "universal",
    "url": "https://www.baidu.com/s?ie=utf-8&wd=test&rn=5&pn=10",
    "user_agent_type": "desktop"
}

Yandex

作业参数分配到URL:

https://yandex.<domain>/search/?text=<query>&numdoc=<limit>&p=<start_page>&lr=<geo_location>

当形成URL时,请遵循以下说明:

  • 编码搜索词:搜索词必须进行URL编码。例如,空格应替换为%20,这代表URL中的空格字符。

  • 起始页调整:start_page的值必须减1。例如,如果所需的起始页为3,则URL中的页码值应为2。

  • 本地化:如果域名为ru或tr,则添加一个附加查询参数lr,并赋值为geo_location。对于其他域名,geo_location值在查询参数rstr下,且值前加一个-符号。

  • 不支持:pages参数不再支持。必须通过更改URL中的当前页码值分别提交作业。

生成的URL示

https://yandex.ru/search/?text=test&numdoc=5&p=0&lr=100
https://yandex.com/search/?text=test%201&numdoc=10&p=2&rstr=-100

等效作业示例

  • 停用的Yandex搜索源:

{
    "source": "yandex_search",
    "query": "test",
    "domain": "com",
    "limit": 5,
    "start_page": 3,
    "geo_location": 100,
    "results_language": "en"
}
  • 更新后的universal源:

{
    "source": "universal",
    "url": "https://yandex.ru/search?text=adidas&numdoc=5&p=2&lr=100&lang=en"
}

参数值

Geo_Location

请在下方查看支持地理位置的完整列表。

示例如下:

"United Arab Emirates",
"Albania",
"Armenia",
"Angola",
"Argentina",
"Australia",
...
"Uruguay",
"Uzbekistan",
"Venezuela Bolivarian Republic of",
"Viet Nam",
"South Africa",
"Zimbabwe"

HTTP_Method

通用 Crawler 支持两种 HTTP 方法。GET(默认)和POST。

"GET",
"POST"

使用功能获取结构化数据。

数据源。。

设备类型和浏览器。单击查看完整列表。

用于检索数据的代理的地理定位。单击查看支持位置的完整列表。

启用 JavaScript 渲染。。

如果正在下载图像,请添加此参数。单击了解更多相关信息。

转至回调端点的 URL。。

Realtime
推拉
代理端
集成方法
Custom Parser
此处
3KB
universal-supported-geo_location-values-web-scraper.csv
更多信息
此处
更多信息
更多信息
此处