新闻搜索
大规模抓取 Google News 结果并获取完整解析数据。提取带有标题、来源和发布日期的文章。
该 google_search source旨在检索Google搜索结果(SERP)。本子页面专门展示与Google新闻搜索相关的数据。要查看其他结果类型,请阅读: 网页搜索, 图像搜索.
要抓取Google新闻搜索,请包含 context:udm 参数并将值设置为 12 或 context:tbm 参数并将值设置为 nws.
请求示例
在下面的示例中,我们发出请求以获取搜索词的新闻搜索结果页面 adidas 在 google.nl 域名。
udm
curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
"source": "google_search",
"domain": "nl",
"query": "adidas",
"parse": true,
"context": [
{
"key": "udm",
"value": "12"
}
]
}'import requests
from pprint import pprint
# 构建负载。
payload = {
'source': 'google_search',
'domain': 'nl',
'query': 'adidas',
'parse': True,
'context': [
{'key': 'udm', 'value': '12'},
],
}
# 获取响应。
response = requests.post(
'https://realtime.oxylabs.io/v1/queries',
auth=('USERNAME', 'PASSWORD'),
json=payload,
)
# 将美化后的响应打印到标准输出。
pprint(response.json())tbm
我们在示例中使用同步 Realtime 集成方法。如果您想使用 Proxy Endpoint 或异步 Push-Pull 集成,请参阅 集成方法 部分。
请求参数值
通用
抓取Google新闻搜索结果的基本设置和自定义选项。
source
设置要使用的爬虫。
google_search
query
要搜索的关键字或短语。
-
context: tbm
要获取新闻搜索结果,请将value设置为 nws. 其他接受的值包括: app, blg, bks, dsc, isch, pts, plcs, rcp, lcl
-
- 强制参数
- udm 和 tbm context 参数不能在单个抓取请求中一起使用; 请只选择其中一个。 同时使用两者可能导致冲突或意外行为。
Google 高级搜索运算符
在抓取时,将 Google 高级搜索运算符与查询结合使用可能很有用。它使您能够自定义搜索范围,确保结果更相关、更集中。探索这些特殊命令 此处 和 此处。见下方示例。
本地化
将搜索结果适配到特定的地理位置、域名和语言。
分页
用于管理搜索结果分页和检索的控制。
start_page
起始页码。
1
pages
要检索的页面数量。
1
limit
每页要检索的结果数量。
10
context:
limit_per_page
如果您想用相同IP抓取多页,请包含一个JSON数组并使用指定页码的 page 键。您还必须通过添加一个来指明每页的自然结果数量,添加一个 limit 键。 参见示例.
-
每页限制
要使用此功能,请在 JSON 数组中包含包含以下数据的 JSON 对象:
page
您要抓取的页面编号。任何大于 0 的整数值都可用
1
limit
该页上的结果数。任何介于 1 和 100 (含)之间的整数值都可用。
90
请求示例
筛选
用于根据各种条件筛选和优化搜索结果的选项。
context:safe_search
安全搜索。设置为以启用它。 true 以启用它。
false
context:
tbs
tbs 参数。该参数类似于一个容器,用于包含更晦涩的 google 参数,例如按日期限制/排序结果以及其他某些依赖于 tbm 参数(例如 tbs=app_os:1 仅在与一起使用时可用 tbm value app)。更多信息 此处.
-
其他
用于专门需求的其他高级设置和控制。
context:
nfpr
true 将关闭拼写自动更正
false
上下文参数
所有上下文参数应作为对象添加到 context 数组,包含 key 和 value 键值对,例如:
结构化数据
SERP 爬虫 API 能够提取包含 Google 搜索结果的 HTML 或 JSON 对象,提供有关结果页面各元素的结构化数据。
输出数据字典
HTML 示例

JSON 结构
Google新闻搜索结构化输出包含如下字段,诸如 URL, page, results等字段。下表列出了我们解析的每个 SERP 功能的详细列表,以及其描述和数据类型。表中还包含一些元数据。
url
Google 搜索页面的 URL。
字符串
results
包含搜索结果的字典。
数组
results.main
列出未付费新闻结果及其各自详细信息的列表。
数组
results.additional
列出热门文章及其各自详细信息的列表。
对象
results.total_results_count
为搜索查询找到的结果总数。
数组
created_at
抓取作业创建的时间戳。
timestamp
updated_at
抓取作业完成的时间戳。
timestamp
page
相对于 Google SERP 分页的页码。
整数
job_id
与抓取作业关联的作业 ID。
字符串
主要
显示未付费新闻结果的列表,提供每篇文章的相关详细信息。

url
完整文章的 URL。
字符串
desc
来自完整文章的简短摘录。
字符串
title
文章的标题。
字符串
source
文章发布的网站名称。
字符串
pos_overall
指示该结果在新闻SERP主要结果中的整体位置。
整数
relative_publish_date
描述文章发布于多久以前。
字符串
附加
呈现热门文章列表,并附带相关详细信息。

items
包含各自详情的文章列表。
数组
items.pos
表示文章在列表中位置的唯一指示符。
整数
items.url
完整文章的 URL。
字符串
items.title
文章的标题。
字符串
items.source
文章发布的网站名称。
字符串
items.relative_publish_date
描述文章发布于多久以前。
字符串
pos_overall
指示该结果在新闻SERP附加结果中的整体位置。
整数
section_title
附加部分的名称。
字符串
最后更新于
这有帮助吗?

