For the complete documentation index, see llms.txt. This page is also available as Markdown.

新闻搜索

大规模抓取 Google News 结果并获取完全解析的数据。提取文章标题、来源和发布时间。

google_search source 旨在检索 Google Search 结果(SERPs)。此子页面专门展示与 Google News 搜索相关的数据。要探索其他结果类型,请阅读此处: 网页搜索, 图片搜索.

查看输出 数据字典 用于每个 News SERP 功能,提供简要说明、截图、已解析的 JSON 代码片段,以及定义每个解析字段的表格。可使用右侧导航或向下滚动页面浏览详情。

请求示例

在下面的示例中,我们发起请求以获取搜索词 adidas.

udm

curl 'https://realtime.oxylabs.io/v1/queries' \\
--user 'USERNAME:PASSWORD' \\
-H 'Content-Type: application/json' \\
-d '{
        "source": "google_search",
        "query": "adidas",
        "parse": true,
        "context": [
            {
                "key": "udm",
                "value": 12
            }
        ]
    }'

tbm

我们在示例中使用同步 Realtime 集成方法。如果你想使用 Proxy Endpoint 或异步 Push-Pull 集成,请参阅 集成方法 部分。

请求参数值

通用

用于抓取 Google News 搜索结果的基本设置和自定义选项。

参数
描述
默认值

source

设置抓取器。

google_search

query

要搜索的关键词或短语。

-

context: udm

要获取新闻搜索结果,请将值设为 12。在此查找其他可接受的值 此处.

context: tbm

要获取新闻搜索结果,请将值设为 nws。其他可接受的值包括: app, blg, bks, dsc, isch, pts, plcs, rcp, lcl

-

render

设置为 html 是此来源的必需项。 更多信息.

-

parse

设为 true时返回解析后的数据。查看输出 数据字典.

false

callback_url

指向你的回调端点的 URL。 更多信息

-

user_agent_type

设备类型和浏览器。完整列表可见 此处.

desktop

- 必需参数

Google 高级搜索运算符

在抓取时,将 Google 高级搜索运算符与查询结合使用会很有用。它可以让你自定义搜索范围,确保结果更相关、更聚焦。探索这些特殊命令 此处此处。示例如下。

本地化

将搜索结果适配到特定地理位置和语言。

参数
描述
默认值

geo_location

结果应适配的地理位置。正确使用此参数极其重要,以获取正确的数据。更多信息请阅读我们建议的 geo_location 参数结构 此处.

-

locale

Accept-Language 请求头值,它会更改你的 Google 搜索页面网页界面语言。 更多信息.

-

分页

用于管理搜索结果分页和获取的控制项。

参数
描述
默认值

start_page

起始页码。

1

pages

要获取的页面数。

1

limit

每页要获取的结果数。

10

context:

limit_per_page

如果你想使用相同 IP 地址抓取多个页面,请包含一个 JSON 数组,并使用 page 键指定页码。你还必须通过添加 limit 键指明每页的自然结果数量。 查看示例.

-

每页限制

要使用此功能,请包含一个 JSON 数组,其中包含以下数据的 JSON 对象:

参数
描述
示例

page

你想抓取的页面编号。任何大于 0 的整数都可以

1

limit

相关页面上的结果数量。任何介于 1100 (含)之间的整数都可以。

90

请求示例

筛选

根据各种条件筛选和细化搜索结果的选项。

参数
描述
默认值

context:safe_search

安全搜索。设为 true 以启用它。

false

context: tbs

tbs 参数。此参数类似于一个容器,用于存放更隐晦的 Google 参数,例如按日期限制/排序结果以及其他筛选条件,其中一些取决于 tbm 参数(例如 tbs=app_os:1 仅在 tbmapp)。更多信息 此处.

-

其他

用于特殊需求的其他高级设置和控制项。

参数
描述
默认值

context: nfpr

true 将关闭拼写自动更正

false

上下文参数

所有上下文参数都应添加到 context 数组中,作为包含 键值对的对象,例如:

结构化数据

SERP 爬虫 API 能够提取包含 Google 搜索结果的 HTML 或 JSON 对象,并在结果页的各个元素上提供结构化数据。

google_search 新闻结构化输出

我们只为 desktop 搜索解析新闻搜索结果。

输出数据字典

HTML 示例

JSON 结构

Google 新闻搜索的结构化输出包括诸如 URL, page, results等字段。下表列出了我们解析的每个 SERP 功能的详细列表,以及其描述和数据类型。表中还包含一些元数据。

特定结果类型的项目和字段数量可能会因搜索查询而异。

描述
类型

url

Google 搜索页面的 URL。

字符串

results

包含搜索结果的字典。

数组

results.main

非付费新闻结果列表及其各自的详细信息。

数组

results.additional

热门文章列表及其各自的详细信息。

对象

results.total_results_count

搜索查询找到的结果总数。

数组

parse_status_code

解析任务的状态码。你可以查看所述解析器状态码 此处.

整数

created_at

爬取任务创建时的时间戳。

时间戳

updated_at

爬取任务完成时的时间戳。

时间戳

page

相对于 Google SERP 分页的页码。

整数

job_id

与爬取任务关联的任务 ID。

字符串

status_code

爬取任务的状态码。你可以查看所述爬虫状态码 此处.

整数

在以下章节中,当某个结果类型有多个项目可用时,解析后的 JSON 代码片段会被缩短。

主要

显示非付费新闻结果列表,并提供每篇文章的相关详细信息。

键(results.main)
描述
类型

url

完整文章的 URL。

字符串

desc

完整文章的简短摘录。

字符串

title

文章标题。

字符串

source

文章发布网站的名称。

字符串

pos_overall

表示该结果在新闻 SERP 主要结果中的总体位置。

整数

relative_publish_date

描述文章发表于多久之前。

字符串

附加

展示热门文章列表,并附带相关详细信息。

键(results.additional)
描述
类型

items

文章列表及其各自的详细信息。

数组

items.pos

用于标示文章在列表中位置的唯一标识。

整数

items.url

完整文章的 URL。

字符串

items.title

文章标题。

字符串

items.source

文章发布网站的名称。

字符串

items.relative_publish_date

描述文章发表于多久之前。

字符串

pos_overall

表示该结果在新闻 SERP 附加结果中的总体位置。

整数

section_title

附加部分的名称。

字符串

最后更新于

这有帮助吗?