新闻搜索

大规模抓取 Google News 结果并获取完整解析数据。提取带有标题、来源和发布日期的文章。

google_search source旨在检索Google搜索结果(SERP)。本子页面专门展示与Google新闻搜索相关的数据。要查看其他结果类型,请阅读: 网页搜索, 图像搜索.

查看输出 数据字典 针对每个新闻SERP功能,提供简要描述、截图、已解析的JSON代码片段以及定义每个解析字段的表格。使用右侧导航或向下滚动页面以浏览详细信息。

请求示例

在下面的示例中,我们发出请求以获取搜索词的新闻搜索结果页面 adidasgoogle.nl 域名。

udm

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "google_search",
        "domain": "nl",
        "query": "adidas",
        "parse": true,
        "context": [
            {
                "key": "udm",
                "value": "12"
            }
        ]
    }'

tbm

我们在示例中使用同步 Realtime 集成方法。如果您想使用 Proxy Endpoint 或异步 Push-Pull 集成,请参阅 集成方法 部分。

请求参数值

通用

抓取Google新闻搜索结果的基本设置和自定义选项。

参数
说明
默认值

source

设置要使用的爬虫。

google_search

query

要搜索的关键字或短语。

-

context: udm

要获取新闻搜索结果,请将value设置为 12。 查找其他接受的值 此处.

context: tbm

要获取新闻搜索结果,请将value设置为 nws. 其他接受的值包括: app, blg, bks, dsc, isch, pts, plcs, rcp, lcl

-

render

设置为时启用 JavaScript 渲染 html. 更多信息.

-

parse

设置为时返回解析数据 true。探索输出 数据字典.

false

callback_url

您的回调端点的 URL。 更多信息.

-

user_agent_type

设备类型和浏览器。完整列表可在 此处.

desktop

- 强制参数

- udmtbm context 参数不能在单个抓取请求中一起使用; 请只选择其中一个。 同时使用两者可能导致冲突或意外行为。

Google 高级搜索运算符

在抓取时,将 Google 高级搜索运算符与查询结合使用可能很有用。它使您能够自定义搜索范围,确保结果更相关、更集中。探索这些特殊命令 此处此处。见下方示例。

本地化

将搜索结果适配到特定的地理位置、域名和语言。

参数
说明
默认值

geo_location

应适配结果的地理位置。正确使用此参数对于获取正确数据非常重要。有关更多信息,请阅读我们建议的 geo_location 参数结构 此处.

-

domain

Google 的域名本地化。完整可用域名列表可在此处找到 此处.

com

locale

Accept-Language 更改您 Google 搜索页面网页界面语言的 header 值。 更多信息.

-

分页

用于管理搜索结果分页和检索的控制。

参数
说明
默认值

start_page

起始页码。

1

pages

要检索的页面数量。

1

limit

每页要检索的结果数量。

10

context:

limit_per_page

如果您想用相同IP抓取多页,请包含一个JSON数组并使用指定页码的 page 键。您还必须通过添加一个来指明每页的自然结果数量,添加一个 limit 键。 参见示例.

-

每页限制

要使用此功能,请在 JSON 数组中包含包含以下数据的 JSON 对象:

参数
说明
示例

page

您要抓取的页面编号。任何大于 0 的整数值都可用

1

limit

该页上的结果数。任何介于 1100 (含)之间的整数值都可用。

90

请求示例

筛选

用于根据各种条件筛选和优化搜索结果的选项。

参数
说明
默认值

context:safe_search

安全搜索。设置为以启用它。 true 以启用它。

false

context: tbs

tbs 参数。该参数类似于一个容器,用于包含更晦涩的 google 参数,例如按日期限制/排序结果以及其他某些依赖于 tbm 参数(例如 tbs=app_os:1 仅在与一起使用时可用 tbm value app)。更多信息 此处.

-

其他

用于专门需求的其他高级设置和控制。

参数
说明
默认值

context: nfpr

true 将关闭拼写自动更正

false

上下文参数

所有上下文参数应作为对象添加到 context 数组,包含 keyvalue 键值对,例如:

结构化数据

SERP 爬虫 API 能够提取包含 Google 搜索结果的 HTML 或 JSON 对象,提供有关结果页面各元素的结构化数据。

google_search news结构化输出

我们仅解析针对的新闻搜索结果 desktop 搜索。

输出数据字典

HTML 示例

JSON 结构

Google新闻搜索结构化输出包含如下字段,诸如 URL, page, results等字段。下表列出了我们解析的每个 SERP 功能的详细列表,以及其描述和数据类型。表中还包含一些元数据。

特定结果类型的项数和字段可能会根据搜索查询而变化。

说明
类型

url

Google 搜索页面的 URL。

字符串

results

包含搜索结果的字典。

数组

results.main

列出未付费新闻结果及其各自详细信息的列表。

数组

results.additional

列出热门文章及其各自详细信息的列表。

对象

results.total_results_count

为搜索查询找到的结果总数。

数组

parse_status_code

解析作业的状态码。您可以在此处查看解析器状态码说明 此处.

整数

created_at

抓取作业创建的时间戳。

timestamp

updated_at

抓取作业完成的时间戳。

timestamp

page

相对于 Google SERP 分页的页码。

整数

job_id

与抓取作业关联的作业 ID。

字符串

status_code

抓取作业的状态码。您可以在此处查看爬虫状态码说明 此处.

整数

在下列部分,当结果类型存在多个项时,解析后的 JSON 代码片段会被缩短。

主要

显示未付费新闻结果的列表,提供每篇文章的相关详细信息。

键(results.main)
说明
类型

url

完整文章的 URL。

字符串

desc

来自完整文章的简短摘录。

字符串

title

文章的标题。

字符串

source

文章发布的网站名称。

字符串

pos_overall

指示该结果在新闻SERP主要结果中的整体位置。

整数

relative_publish_date

描述文章发布于多久以前。

字符串

附加

呈现热门文章列表,并附带相关详细信息。

键(results.additional)
说明
类型

items

包含各自详情的文章列表。

数组

items.pos

表示文章在列表中位置的唯一指示符。

整数

items.url

完整文章的 URL。

字符串

items.title

文章的标题。

字符串

items.source

文章发布的网站名称。

字符串

items.relative_publish_date

描述文章发布于多久以前。

字符串

pos_overall

指示该结果在新闻SERP附加结果中的整体位置。

整数

section_title

附加部分的名称。

字符串

最后更新于

这有帮助吗?