新闻搜索

大规模抓取 Google 新闻结果并获取完整解析数据。提取带有标题、来源和发布日期的文章。

该 google_search source 旨在检索 Google 搜索结果 (SERP)。此子页面专门展示与 Google 新闻搜索相关的数据。要查看其他结果类型，请阅读： 网页搜索, 图片搜索.

要抓取 Google 新闻搜索，请包含 context:udm 参数并将值设置为 12 或 context:tbm 参数并将值设置为 nws.

探索输出 数据字典 针对每个新闻 SERP 功能，提供简要说明、截图、解析后的 JSON 代码片段以及定义每个解析字段的表格。使用右侧导航或向下滚动页面在详细信息之间导航。

请求示例

在下面的示例中，我们发出请求以获取搜索词的新闻搜索结果页面 adidas.

udm

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "google_search",
        "query": "adidas",
        "parse": true,
        "context": [
            {
                "key": "udm",
                "value": "12"
            }
        ]
    }'

import requests
from pprint import pprint

# 构建负载。
payload = {
    'source': 'google_search',
    'query': 'adidas',
    'parse': True,
    'context': [
        {'key': 'udm', 'value': '12'},
    ],
}

# 获取响应。
response = requests.post(
    'https://realtime.oxylabs.io/v1/queries',
    auth=('USERNAME', 'PASSWORD'),
    json=payload,
)

# 将美化后的响应打印到 stdout。
pprint(response.json())

const https = require("https");

const username = "USERNAME";
const password = "PASSWORD";
const body = {
    source: "google_search",
    query: "adidas",
    parse: true,
    context: [
        { key: "udm", value: "12" },
    ],
};

const options = {
    hostname: "realtime.oxylabs.io",
    path: "/v1/queries",
    method: "POST",
    headers: {
        "Content-Type": "application/json",
        Authorization:
            "Basic " + Buffer.from(`${username}:${password}`).toString("base64"),
    },
};

const request = https.request(options, (response) => {
    let data = "";

    response.on("data", (chunk) => {
        data += chunk;
    });

    response.on("end", () => {
        const responseData = JSON.parse(data);
        console.log(JSON.stringify(responseData, null, 2));
    });
});

request.on("error", (error) => {
    console.error("Error:", error);
});

request.write(JSON.stringify(body));
request.end();

<?php

$params = array(
    'source' => 'google_search',
    'query' => 'adidas',
    'parse' => true,
    'context' => [
        [
            'key' => 'udm',
            'value' => '12',
        ]
    ]
);

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, "https://realtime.oxylabs.io/v1/queries");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, json_encode($params));
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_USERPWD, "USERNAME" . ":" . "PASSWORD");


$headers = array();
$headers[] = "Content-Type: application/json";
curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);

$result = curl_exec($ch);
echo $result;

if (curl_errno($ch)) {
    echo 'Error:' . curl_error($ch);
}
curl_close($ch);

package main

import (
	"bytes"
	"encoding/json"
	"fmt"
	"io/ioutil"
	"net/http"
)

func main() {
	const Username = "USERNAME"
	const Password = "PASSWORD"

	payload := map[string]interface{}{
		"source": "google_search",
		"query":  "adidas",
		"parse":  true,
		"context": []map[string]interface{}{
			{"key": "udm", "value": "12"},
		},
	}

	jsonValue, _ := json.Marshal(payload)

	client := &http.Client{}
	request, _ := http.NewRequest("POST",
		"https://realtime.oxylabs.io/v1/queries",
		bytes.NewBuffer(jsonValue),
	)

	request.SetBasicAuth(Username, Password)
	response, _ := client.Do(request)

	responseText, _ := ioutil.ReadAll(response.Body)
	fmt.Println(string(responseText))
}

using System;
using System.Collections.Generic;
using System.Net.Http;
using System.Net.Http.Json;
using System.Threading.Tasks;

namespace OxyApi
{
    class Program
    {
        static async Task Main()
        {
            const string Username = "USERNAME";
            const string Password = "PASSWORD";

            var parameters = new {
                source = "google_search",
                query = "adidas",
                parse = true,
                context = new dynamic [] {
                    new { key = "udm", value = "12" },
                }
            };

            var client = new HttpClient();

            Uri baseUri = new Uri("https://realtime.oxylabs.io");
            client.BaseAddress = baseUri;

            var requestMessage = new HttpRequestMessage(HttpMethod.Post, "/v1/queries");
            requestMessage.Content = JsonContent.Create(parameters);

            var authenticationString = $"{Username}:{Password}";
            var base64EncodedAuthenticationString = Convert.ToBase64String(System.Text.ASCIIEncoding.UTF8.GetBytes(authenticationString));
            requestMessage.Headers.Add("Authorization", "Basic " + base64EncodedAuthenticationString);

            var response = await client.SendAsync(requestMessage);
            var contents = await response.Content.ReadAsStringAsync();

            Console.WriteLine(contents);
        }
    }
}

package org.example;

import okhttp3.*;
import org.json.JSONArray;
import org.json.JSONObject;
import java.util.concurrent.TimeUnit;

public class Main implements Runnable {
    private static final String AUTHORIZATION_HEADER = "Authorization";
    public static final String USERNAME = "USERNAME";
    public static final String PASSWORD = "PASSWORD";

    public void run() {
        JSONObject jsonObject = new JSONObject();
        jsonObject.put("source", "google_search");
        jsonObject.put("query", "adidas");
        jsonObject.put("parse", true);
        jsonObject.put("context", new JSONArray()
                .put(new JSONObject()
                        .put("key", "udm")
                        .put("value", "12"))
        );

        Authenticator authenticator = (route, response) -> {
            String credential = Credentials.basic(USERNAME, PASSWORD);
            return response
                    .request()
                    .newBuilder()
                    .header(AUTHORIZATION_HEADER, credential)
                    .build();
        };

        var client = new OkHttpClient.Builder()
                .authenticator(authenticator)
                .readTimeout(180, TimeUnit.SECONDS)
                .build();

        var mediaType = MediaType.parse("application/json; charset=utf-8");
        var body = RequestBody.create(jsonObject.toString(), mediaType);
        var request = new Request.Builder()
                .url("https://realtime.oxylabs.io/v1/queries")
                .post(body)
                .build();

        try (var response = client.newCall(request).execute()) {
            if (response.body() != null) {
                try (var responseBody = response.body()) {
                    System.out.println(responseBody.string());
                }
            }
        } catch (Exception exception) {
            System.out.println("Error: " + exception.getMessage());
        }

        System.exit(0);
    }

    public static void main(String[] args) {
        new Thread(new Main()).start();
    }
}

tbm

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "google_search",
        "query": "adidas",
        "parse": true,
        "context": [
            {
                "key": "tbm",
                "value": "nws"
            }
        ]
    }'

import requests
from pprint import pprint

# 构建负载。
payload = {
    'source': 'google_search',
    'query': 'adidas',
    'parse': True,
    'context': [
        {'key': 'tbm', 'value': 'nws'},
    ],
}

# 获取响应。
response = requests.post(
    'https://realtime.oxylabs.io/v1/queries',
    auth=('USERNAME', 'PASSWORD'),
    json=payload,
)

# 将美化后的响应打印到 stdout。
pprint(response.json())

const https = require("https");

const username = "USERNAME";
const password = "PASSWORD";
const body = {
    source: "google_search",
    query: "adidas",
    parse: true,
    context: [
        { key: "tbm", value: "nws" },
    ],
};

const options = {
    hostname: "realtime.oxylabs.io",
    path: "/v1/queries",
    method: "POST",
    headers: {
        "Content-Type": "application/json",
        Authorization:
            "Basic " + Buffer.from(`${username}:${password}`).toString("base64"),
    },
};

const request = https.request(options, (response) => {
    let data = "";

    response.on("data", (chunk) => {
        data += chunk;
    });

    response.on("end", () => {
        const responseData = JSON.parse(data);
        console.log(JSON.stringify(responseData, null, 2));
    });
});

request.on("error", (error) => {
    console.error("Error:", error);
});

request.write(JSON.stringify(body));
request.end();

<?php

$params = array(
    'source' => 'google_search',
    'query' => 'adidas',
    'parse' => true,
    'context' => [
        [
            'key' => 'tbm',
            'value' => 'nws',
        ]
    ]
);

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, "https://realtime.oxylabs.io/v1/queries");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, json_encode($params));
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_USERPWD, "USERNAME" . ":" . "PASSWORD");


$headers = array();
$headers[] = "Content-Type: application/json";
curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);

$result = curl_exec($ch);
echo $result;

if (curl_errno($ch)) {
    echo 'Error:' . curl_error($ch);
}
curl_close($ch);

package main

import (
	"bytes"
	"encoding/json"
	"fmt"
	"io/ioutil"
	"net/http"
)

func main() {
	const Username = "USERNAME"
	const Password = "PASSWORD"

	payload := map[string]interface{}{
		"source": "google_search",
		"query":  "adidas",
		"parse":  true,
		"context": []map[string]interface{}{
			{"key": "tbm", "value": "nws"},
		},
	}

	jsonValue, _ := json.Marshal(payload)

	client := &http.Client{}
	request, _ := http.NewRequest("POST",
		"https://realtime.oxylabs.io/v1/queries",
		bytes.NewBuffer(jsonValue),
	)

	request.SetBasicAuth(Username, Password)
	response, _ := client.Do(request)

	responseText, _ := ioutil.ReadAll(response.Body)
	fmt.Println(string(responseText))
}

using System;
using System.Collections.Generic;
using System.Net.Http;
using System.Net.Http.Json;
using System.Threading.Tasks;

namespace OxyApi
{
    class Program
    {
        static async Task Main()
        {
            const string Username = "USERNAME";
            const string Password = "PASSWORD";

            var parameters = new {
                source = "google_search",
                query = "adidas",
                parse = true,
                context = new dynamic [] {
                    new { key = "tbm", value = "nws" },
                }
            };

            var client = new HttpClient();

            Uri baseUri = new Uri("https://realtime.oxylabs.io");
            client.BaseAddress = baseUri;

            var requestMessage = new HttpRequestMessage(HttpMethod.Post, "/v1/queries");
            requestMessage.Content = JsonContent.Create(parameters);

            var authenticationString = $"{Username}:{Password}";
            var base64EncodedAuthenticationString = Convert.ToBase64String(System.Text.ASCIIEncoding.UTF8.GetBytes(authenticationString));
            requestMessage.Headers.Add("Authorization", "Basic " + base64EncodedAuthenticationString);

            var response = await client.SendAsync(requestMessage);
            var contents = await response.Content.ReadAsStringAsync();

            Console.WriteLine(contents);
        }
    }
}

package org.example;

import okhttp3.*;
import org.json.JSONArray;
import org.json.JSONObject;
import java.util.concurrent.TimeUnit;

public class Main implements Runnable {
    private static final String AUTHORIZATION_HEADER = "Authorization";
    public static final String USERNAME = "USERNAME";
    public static final String PASSWORD = "PASSWORD";

    public void run() {
        JSONObject jsonObject = new JSONObject();
        jsonObject.put("source", "google_search");
        jsonObject.put("query", "adidas");
        jsonObject.put("parse", true);
        jsonObject.put("context", new JSONArray()
                .put(new JSONObject()
                        .put("key", "tbm")
                        .put("value", "nws"))
        );

        Authenticator authenticator = (route, response) -> {
            String credential = Credentials.basic(USERNAME, PASSWORD);
            return response
                    .request()
                    .newBuilder()
                    .header(AUTHORIZATION_HEADER, credential)
                    .build();
        };

        var client = new OkHttpClient.Builder()
                .authenticator(authenticator)
                .readTimeout(180, TimeUnit.SECONDS)
                .build();

        var mediaType = MediaType.parse("application/json; charset=utf-8");
        var body = RequestBody.create(jsonObject.toString(), mediaType);
        var request = new Request.Builder()
                .url("https://realtime.oxylabs.io/v1/queries")
                .post(body)
                .build();

        try (var response = client.newCall(request).execute()) {
            if (response.body() != null) {
                try (var responseBody = response.body()) {
                    System.out.println(responseBody.string());
                }
            }
        } catch (Exception exception) {
            System.out.println("Error: " + exception.getMessage());
        }

        System.exit(0);
    }

    public static void main(String[] args) {
        new Thread(new Main()).start();
    }
}

我们在示例中使用同步 Realtime 集成方法。如果您想使用 Proxy Endpoint 或异步 Push-Pull 集成，请参阅 集成方法 部分。

请求参数值

通用

抓取 Google 新闻搜索结果的基本设置和自定义选项。

参数

描述

默认值

source

设置爬虫。

google_search

query

要搜索的关键词或短语。

context： udm

要获取新闻搜索结果，请将 value 设置为 12。查找其他接受的值 here.

context： tbm

要获取新闻搜索结果，请将 value 设置为 nws. 其他接受的值有： app, blg, bks, dsc, isch, pts, plcs, rcp, lcl

render

当设置为时启用 JavaScript 渲染 html. 更多信息.

parse

当设置为时返回解析后的数据 true。查看输出 数据字典.

false

callback_url

回调端点的 URL。 更多信息.

user_agent_type

设备类型和浏览器。完整列表可在 here.

desktop

- 必填参数

- udm 和 tbm context 参数不能在单个抓取请求中同时使用； 请从中选择一个。同时使用两者可能导致冲突或意外行为。

Google 高级搜索运算符

抓取时，将 Google 高级搜索运算符与查询结合使用可能很有用。它使您能够自定义搜索范围，从而确保结果更相关、聚焦。探索这些特殊命令 here 和 here。见下面示例。

{
    "source": "google_search",
    "query": "iphone 15 launch inurl:apple",
}

本地化

将搜索结果适配到特定地理位置和语言。

参数

描述

默认值

geo_location

应适配结果的地理位置。正确使用此参数对于获取正确数据非常重要。有关更多信息，请阅读我们建议的 geo_location 参数结构 here.

locale

Accept-Language 标头值，用于更改您 Google 搜索页面的网页界面语言。 更多信息.

分页

用于管理搜索结果分页和检索的控制项。

参数

描述

默认值

start_page

起始页码。

1

pages

要检索的页数。

1

limit

每页要检索的结果数量。

10

context:

limit_per_page

如果您想用相同 IP 抓取多个页面，请包含一个 JSON 数组并使用 page 键指定页码。您还必须通过添加一个 limit 键来指明每页的自然结果数量。 见示例.

每页限制

要使用此功能，请包含一个 JSON 数组，数组内为包含以下数据的 JSON 对象：

参数

描述

示例

page

您要抓取的页码。任何大于 0 的整数值都可用

1

limit

相关页的结果数量。任何介于 1 和 100 （含）之间的整数值都可用。

90

请求示例

{
    "source": "google_search",
    "query": "adidas",
    "parse": true,
    "context": [
        {
            "key": "limit_per_page",
            "value": [
                {"page": 1, "limit": 10},
                {"page": 2, "limit": 90}
                    ]
        }]
}

过滤

用于根据各种条件过滤和优化搜索结果的选项。

参数

描述

默认值

context:safe_search

安全搜索。设置为 true 以启用它。

false

context: tbs

tbs 参数。该参数类似于一个容器，用于更晦涩的 Google 参数，例如按日期限制/排序结果，以及其他某些依赖于 tbm 参数（例如 tbs=app_os:1 仅在与 tbm 值 app一起使用时可用）。更多信息 here.

其他

用于特殊需求的其他高级设置和控制项。

参数

描述

默认值

context: nfpr

true 将关闭拼写自动更正

false

上下文参数

所有上下文参数应作为对象添加到 context 数组，形式为具有 键 和 值 对，例如：

...
"context": [
    {
        "key": "filter",
        "value": "0"
    }
]
...

结构化数据

SERP 爬虫 API 能够提取包含 Google 搜索结果的 HTML 或 JSON 对象，提供关于结果页面各个元素的结构化数据。

google_search news 结构化输出

{
    "results": [
        {
            "content": {
                "url": "https://www.google.com/search?q=adidas&tbm=nws&uule=w+CAIQICINdW5pdGVkIHN0YXRlcw&gl=us&hl=en",
                "page": 1,
                "results": {
                    "main": [
                        {
                            "url": "https://www.cnn.com/2022/05/06/business/under-armour-stock-adidas-nike/index.html",
                            "desc": "受阻的供应链和中国的新冠病例激增正给顶级运动品牌带来\n麻烦。",
                            "title": "华尔街对 Under Armour、Nike 和 Adidas 已经感到不满",
                            "source": "CNN",
                            "pos_overall": 1,
                            "relative_publish_date": "2 days ago"
                        },
                        ...
                        {
                            "url": "https://www.cnbc.com/2022/05/06/dsw-tests-layout-to-spotlight-brands-like-adidas-crocs-birkenstock.html",
                            "desc": "DSW 正在休斯顿一家本周末开业的门店试验新的店面外观和布局，试图将顾客的注意力集中在...",
                            "title": "DSW 正在测试一种将焦点放在 Adidas、Crocs 和 Birkenstock 等品牌的店铺布局",
                            "source": "CNBC",
                            "pos_overall": 10,
                            "relative_publish_date": "2 days ago"
                        }
                    ],
                    "total_results_count": 57300000
                },
                "parse_status_code": 12000
            },
            "created_at": "2022-05-09 07:25:03",
            "updated_at": "2022-05-09 07:25:07",
            "page": 1,
            "url": "https://www.google.com/search?q=adidas&tbm=nws&uule=w+CAIQICINdW5pdGVkIHN0YXRlcw&gl=us&hl=en",
            "job_id": "6929330379711060993",
            "status_code": 200,
            "parser_type": "v2"
        }
    ]
}

我们仅为抓取新闻搜索结果进行解析 desktop 搜索。

输出数据字典

HTML 示例

JSON 结构

Google 新闻搜索的结构化输出包含如下字段，例如 URL, page, 结果，以及其他字段。下表列出我们解析的每个 SERP 功能的详细信息、描述和数据类型。表中还包含一些元数据。

特定结果类型的项目和字段数量可能会根据搜索查询而变化。

键

描述

类型

url

Google 搜索页面的 URL。

字符串

结果

包含搜索结果的字典。

数组

results.main

一列未付费新闻结果及其各自的详细信息。

数组

results.additional

一列热门文章及其各自的详细信息。

对象

results.total_results_count

搜索查询找到的结果总数。

数组

parse_status_code

解析任务的状态代码。您可以在此处查看解析器状态代码的描述 here.

整数

created_at

抓取任务创建的时间戳。

timestamp

updated_at

抓取任务完成的时间戳。

timestamp

page

相对于 Google SERP 分页的页面编号。

整数

job_id

与抓取任务关联的作业 ID。

字符串

status_code

抓取任务的状态代码。您可以在此处查看抓取器状态代码的描述 here.

整数

在下列部分，当某个结果类型存在多个项目时，解析后的 JSON 代码片段会被缩短。

主要内容

显示未付费新闻结果的列表，为每篇文章提供相关的详细信息。

...
"main": [
    {
        "url": "https://www.yahoo.com/lifestyle/tiger-woods-nikes-epic-partnership-015311819.html",
        "desc": "曾经存在一个泰格·伍兹没有得到 Nike 赞助的世界似乎...",
        "title": "泰格·伍兹与 Nike 的传奇合作如何破裂",
        "source": "Yahoo",
        "pos_overall": 1,
        "relative_publish_date": "1 day ago"
    },
                       ...
},

...

键 (results.main)

描述

类型

url

完整文章的 URL。

字符串

desc

文章正文的简短摘录。

字符串

title

文章的标题。

字符串

source

文章发布的网站名称。

字符串

pos_overall

表示该结果在新闻 SERP 主结果中的整体位置。

整数

relative_publish_date

描述文章发布的距离当前时间。

字符串

附加内容

展示一列热门文章，并附上相关详细信息。

...
"additional": [
    {
        "items": [
            {
                "pos": 1,
                "url": "https://www.complex.com/sneakers/a/brendan-dunne/nike-book-1-colorways-haven-hike-rattlesnake",
                "title": "Nike Book 1 色系 Haven Hike Rattlesnake",
                "source": "Complex",
                "relative_publish_date": "1 day ago"
            },
         ...
        ],
        "pos_overall": 2,
        "section_title": "Devin Booker 确认 Nike Book 1 发布存在问题"
    }
...

键 (results.additional)

描述

类型

项目

带有各自详细信息的文章列表。

数组

items.pos

表示文章在列表中的唯一位置标识。

整数

items.url

完整文章的 URL。

字符串

items.title

文章的标题。

字符串

items.source

文章发布的网站名称。

字符串

items.relative_publish_date

描述文章发布的距离当前时间。

字符串

pos_overall

表示该结果在新闻 SERP 附加结果中的整体位置。

整数

section_title

附加部分的名称。

字符串

最后更新于29天前

这有帮助吗？

晚上好

hashtag请求示例

hashtagudm

hashtagtbm

hashtag请求参数值

hashtag通用

hashtagGoogle 高级搜索运算符

hashtag本地化

hashtag分页

hashtag每页限制

hashtag请求示例

hashtag过滤

hashtag其他

hashtag上下文参数

hashtag结构化数据

hashtag输出数据字典

hashtagHTML 示例

hashtagJSON 结构

hashtag主要内容

hashtag附加内容

请求示例

udm

tbm

请求参数值

通用

Google 高级搜索运算符

本地化

分页

每页限制

请求示例

过滤

其他

上下文参数

结构化数据

输出数据字典

HTML 示例

JSON 结构

主要内容

附加内容