新闻搜索

大规模抓取 Google 新闻结果并获得完全解析的数据。提取带有标题、来源和发布日期的文章。

google_search source 旨在检索 Google 搜索结果 (SERP)。此子页面专门展示与 Google 新闻搜索 相关的数据。要查看其他结果类型,请阅读: 网页搜索arrow-up-right, 图片搜索arrow-up-right.

circle-exclamation
circle-info

探索输出 数据字典 针对每个新闻 SERP 功能,提供简要说明、截图、解析后的 JSON 代码片段以及定义每个解析字段的表格。使用右侧导航或向下滚动页面在详细信息之间导航。

请求示例

在下面的示例中,我们发出请求以获取搜索词的新闻搜索结果页面 adidas.

udm

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "google_search",
        "query": "adidas",
        "parse": true,
        "context": [
            {
                "key": "udm",
                "value": "12"
            }
        ]
    }'

tbm

我们在示例中使用同步 Realtime 集成方法。如果您想使用 Proxy Endpoint 或异步 Push-Pull 集成,请参阅 集成方法 部分。

请求参数值

通用

抓取 Google 新闻搜索结果的基本设置和自定义选项。

参数
描述
默认值

source

设置爬虫。

google_search

query

要搜索的关键词或短语。

-

context: udm

要获取新闻搜索结果,请将 value 设置为 12。 查找其他接受的值 herearrow-up-right.

context: tbm

要获取新闻搜索结果,请将 value 设置为 nws. 其他接受的值有: app, blg, bks, dsc, isch, pts, plcs, rcp, lcl

-

render

当设置为时启用 JavaScript 渲染 html. 更多信息.

-

parse

当设置为时返回解析后的数据 true。查看输出 数据字典.

false

callback_url

回调端点的 URL。 更多信息.

-

user_agent_type

设备类型和浏览器。完整列表可在 here.

desktop

- 必填参数

- udmtbm context 参数不能在单个抓取请求中同时使用; 请从中选择一个。 同时使用两者可能导致冲突或意外行为。

Google 高级搜索运算符

抓取时,将 Google 高级搜索运算符与查询结合使用可能很有用。它使您能够自定义搜索范围,从而确保结果更相关、聚焦。探索这些特殊命令 herearrow-up-rightherearrow-up-right。见下面示例。

本地化

将搜索结果适配到特定地理位置和语言。

参数
描述
默认值

geo_location

应适配结果的地理位置。正确使用此参数对于获取正确数据非常重要。有关更多信息,请阅读我们建议的 geo_location 参数结构 here.

-

locale

Accept-Language 标头值,用于更改您 Google 搜索页面的网页界面语言。 更多信息.

-

分页

用于管理搜索结果分页和检索的控制项。

参数
描述
默认值

start_page

起始页码。

1

pages

要检索的页数。

1

limit

每页要检索的结果数量。

10

context:

limit_per_page

如果您想用相同 IP 抓取多个页面,请包含一个 JSON 数组并使用 page 键 指定页码。您还必须通过添加一个 limit 键 来指明每页的自然结果数量。 见示例.

-

每页限制

要使用此功能,请包含一个 JSON 数组,数组内为包含以下数据的 JSON 对象:

参数
描述
示例

page

您要抓取的页码。任何大于 0 的整数值都可用

1

limit

相关页的结果数量。任何介于 1100 (含)之间的整数值都可用。

90

请求示例

过滤

用于根据各种条件过滤和优化搜索结果的选项。

参数
描述
默认值

context:safe_search

安全搜索。设置为 true 以启用它。

false

context: tbs

tbs 参数。该参数类似于一个容器,用于更晦涩的 Google 参数,例如按日期限制/排序结果,以及其他某些依赖于 tbm 参数(例如 tbs=app_os:1 仅在与 tbmapp一起使用时可用)。更多信息 herearrow-up-right.

-

其他

用于特殊需求的其他高级设置和控制项。

参数
描述
默认值

context: nfpr

true 将关闭拼写自动更正

false

上下文参数

所有上下文参数应作为对象添加到 context 数组,形式为具有 对,例如:

结构化数据

SERP 爬虫 API 能够提取包含 Google 搜索结果的 HTML 或 JSON 对象,提供关于结果页面各个元素的结构化数据。

chevron-rightgoogle_search news 结构化输出hashtag
circle-info

我们仅为 抓取新闻搜索结果 进行解析 desktop 搜索。

输出数据字典

HTML 示例

JSON 结构

Google 新闻搜索的结构化输出包含如下字段,例如 URL, page, 结果,以及其他字段。下表列出我们解析的每个 SERP 功能的详细信息、描述和数据类型。表中还包含一些元数据。

circle-info

特定结果类型的项目和字段数量可能会根据搜索查询而变化。

描述
类型

url

Google 搜索页面的 URL。

字符串

结果

包含搜索结果的字典。

数组

results.main

一列未付费新闻结果及其各自的详细信息。

数组

results.additional

一列热门文章及其各自的详细信息。

对象

results.total_results_count

搜索查询找到的结果总数。

数组

parse_status_code

解析任务的状态代码。您可以在此处查看解析器状态代码的描述 herearrow-up-right.

整数

created_at

抓取任务创建的时间戳。

timestamp

updated_at

抓取任务完成的时间戳。

timestamp

page

相对于 Google SERP 分页的页面编号。

整数

job_id

与抓取任务关联的作业 ID。

字符串

status_code

抓取任务的状态代码。您可以在此处查看抓取器状态代码的描述 herearrow-up-right.

整数

circle-info

在下列部分,当某个结果类型存在多个项目时,解析后的 JSON 代码片段会被缩短。

主要内容

显示未付费新闻结果的列表,为每篇文章提供相关的详细信息。

键 (results.main)
描述
类型

url

完整文章的 URL。

字符串

desc

文章正文的简短摘录。

字符串

title

文章的标题。

字符串

source

文章发布的网站名称。

字符串

pos_overall

表示该结果在新闻 SERP 主结果中的整体位置。

整数

relative_publish_date

描述文章发布的距离当前时间。

字符串

附加内容

展示一列热门文章,并附上相关详细信息。

键 (results.additional)
描述
类型

项目

带有各自详细信息的文章列表。

数组

items.pos

表示文章在列表中的唯一位置标识。

整数

items.url

完整文章的 URL。

字符串

items.title

文章的标题。

字符串

items.source

文章发布的网站名称。

字符串

items.relative_publish_date

描述文章发布的距离当前时间。

字符串

pos_overall

表示该结果在新闻 SERP 附加结果中的整体位置。

整数

section_title

附加部分的名称。

字符串

最后更新于

这有帮助吗?