Pesquisa de Notícias

Raspe resultados do Google News em larga escala e obtenha dados totalmente parseados. Extraia artigos com títulos, fontes e datas de publicação.

O google_search source é projetado para recuperar resultados do Google Search (SERPs). Esta subpágina apresenta especificamente dados relacionados ao Google News Search. Para explorar outros tipos de resultados, leia aqui: Pesquisa na Webarrow-up-right, Pesquisa de Imagensarrow-up-right.

circle-exclamation
circle-info

Explorar saída dicionário de dados de saída para cada recurso de SERP de Notícias, oferecendo uma breve descrição, captura de tela, trecho de código JSON analisado e uma tabela definindo cada campo analisado. Navegue pelos detalhes usando a navegação à direita ou rolando a página para baixo.

Exemplos de requisição

Nos exemplos abaixo, fazemos uma solicitação para obter páginas de resultados de pesquisa do News para o termo de busca adidas.

o parâmetro permite alternar entre diferentes guias de busca, como imagens, locais ou vídeos, para personalizar o tipo de resultados exibidos. Encontre os valores aceitos

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "google_search",
        "query": "adidas",
        "parse": true,
        "context": [
            {
                "key": "udm",
                "value": "12"
            }
        ]
    }'

Parâmetro to-be-matched ou

Usamos Realtime método de integração em nossos exemplos. Se você quiser usar Proxy Endpoint ou assíncrona Push-Pull integração, consulte o métodos de integração seção.

Valores dos parâmetros da requisição

Genérico

Configuração básica e opções de personalização para rastrear resultados de pesquisa do Google News.

Parâmetro
Descrição
Valor Padrão

source

Define o scraper.

google_search

query

A palavra-chave ou frase a ser pesquisada.

-

context: o parâmetro permite alternar entre diferentes guias de busca, como imagens, locais ou vídeos, para personalizar o tipo de resultados exibidos. Encontre os valores aceitos

Para obter resultados de pesquisa do News, defina value como 12. Encontre outros valores aceitos aquiarrow-up-right.

context: Parâmetro to-be-matched ou

Para obter resultados de pesquisa do News, defina value como pts. Outros valores aceitos são: blg, bks, dsc, isch, nws, plcs, rcp, lcl, tbs

-

render

Ativa a renderização JavaScript quando definido como html. Mais informações.

-

parse

Retorna dados analisados quando definido como true. Explore o dicionário de dados de saída.

false

callback_url

URL para seu endpoint de callback. Mais informações.

-

user_agent_type

Tipo de dispositivo e navegador. A lista completa pode ser encontrada aqui.

desktop

- parâmetro obrigatório

- o parâmetro permite alternar entre diferentes guias de busca, como imagens, locais ou vídeos, para personalizar o tipo de resultados exibidos. Encontre os valores aceitos e Parâmetro to-be-matched ou parâmetros context não podem ser usados juntos em uma única requisição de scraping; por favor selecione um deles. Usar ambos simultaneamente pode levar a conflitos ou comportamento inesperado.

Operadores avançados de busca do Google

Ao raspar, pode ser útil combinar operadores avançados de busca do Google com sua consulta. Isso permite personalizar o escopo da busca, garantindo resultados mais relevantes e focados. Explore esses comandos especiais aquiarrow-up-right e aquiarrow-up-right. Veja um exemplo abaixo.

Localização

Adapte os resultados da pesquisa a locais geográficos e idiomas específicos.

Parâmetro
Descrição
Valor Padrão

geo_location

A localização geográfica para a qual o resultado deve ser adaptado. Usar este parâmetro corretamente é extremamente importante para obter os dados certos. Para mais informações, leia sobre nossas geo_location estruturas de parâmetro aqui.

-

locale

Accept-Language valor do cabeçalho que altera o idioma da interface da página de pesquisa do Google. Mais informações.

-

Paginação

Controles para gerenciar a paginação e a recuperação dos resultados de pesquisa.

Parâmetro
Descrição
Valor Padrão

start_page

Número da página inicial.

1

pages

Número de páginas a serem recuperadas.

1

limit

Número de resultados a recuperar em cada página.

10

context:

Raspe várias páginas usando o mesmo endereço IP e sessão (conjunto de cookies). Especificando os números de página em um array JSON com a

Se você quiser raspar várias páginas com o mesmo endereço IP, inclua um array JSON e especifique os números das páginas usando o chave e indicando o número de resultados orgânicos por página usando a key. Você também deve indicar o número de resultados orgânicos em cada página adicionando um limit key. Suporte a rolagem contínua.

-

Devido a mudanças recentes nos limites do Google, ajustamos o comportamento da Web Scraper API. O máximo de resultados por página corresponderá à saída orgânica do Google, que normalmente é de 10 resultados.

Exemplo

Parâmetro
Descrição
O número da página que você gostaria de raspar. Qualquer valor inteiro maior que

chave e indicando o número de resultados orgânicos por página usando a

funcionará 0 O número de resultados na página em questão. Qualquer valor inteiro entre

1

limit

(inclusivo) funcionará. 1 e 100 Exemplo de requisição

90

"key": "limit_per_page",

Opções para filtrar e refinar resultados de busca com base em vários critérios. Aprenda a usar parâmetros de contexto

Opções para filtrar e refinar resultados de pesquisa com base em vários critérios.

Parâmetro
Descrição
Valor Padrão

context:Pesquisa segura. Defina como

para habilitá-la. true udm

false

context: Este parâmetro é como um contêiner para parâmetros do Google mais obscuros, como limitar/ordenar resultados por data, além de outros filtros, alguns dos quais dependem do

Este parâmetro é como um contêiner para parâmetros do Google mais obscuros, como limitar/ordenar resultados por data, além de outros filtros, alguns dos quais dependem do parâmetro. Este parâmetro é como um contêiner para parâmetros do Google mais obscuros, como limitar/ordenar resultados por data, além de outros filtros, alguns dos quais dependem do Parâmetro to-be-matched ou tbs=app_os:1 só está disponível com value Parâmetro to-be-matched ou value blgos parâmetros de contexto não podem ser usados juntos em uma única requisição de scraping; por favor selecione apenas um. Usar ambos simultaneamente pode levar a conflitos ou comportamento inesperado. aquiarrow-up-right.

-

Outros

Configurações avançadas adicionais e controles para requisitos especializados.

Parâmetro
Descrição
Valor Padrão

context: nfpr

true desativará a autocorreção ortográfica

false

Parâmetros de contexto

Todos os parâmetros de contexto devem ser adicionados ao context array como objetos com key e value pares, por exemplo:

Dados estruturados

SERP Scraper API é capaz de extrair um objeto HTML ou JSON que contém resultados de pesquisa do Google, oferecendo dados estruturados sobre vários elementos da página de resultados.

chevron-rightgoogle_search saída estruturada de notíciashashtag
circle-info

Nós apenas analisamos resultados de pesquisa de notícias para desktop pesquisas.

Dicionário de dados de saída

Exemplo de HTML

Estrutura JSON

A saída estruturada do Google News Search inclui campos como URL, chave e indicando o número de resultados orgânicos por página usando a, resultados, e outros. A tabela abaixo apresenta uma lista detalhada de cada recurso do SERP que analisamos, junto com sua descrição e tipo de dado. A tabela também inclui alguns metadados.

circle-info

O número de itens e campos para um tipo de resultado específico pode variar dependendo da consulta de pesquisa.

Chave
Descrição
Tipo

url

A URL da página de pesquisa do Google.

string

resultados

Um dicionário contendo os resultados da pesquisa.

array

results.main

Uma lista de resultados de notícias não pagos com seus respectivos detalhes.

array

results.additional

Uma lista de artigos em tendência com seus respectivos detalhes.

object

results.total_results_count

O número total de resultados encontrados para a consulta de pesquisa.

array

parse_status_code

O código de status do trabalho de parsing. Você pode ver os códigos de status do parser descritos aquiarrow-up-right.

integer

created_at

O timestamp quando o trabalho de scraping foi criado.

timestamp

updated_at

O timestamp quando o trabalho de scraping foi finalizado.

timestamp

chave e indicando o número de resultados orgânicos por página usando a

Número da página relativo à paginação do SERP do Google.

integer

job_id

O ID do job associado ao trabalho de scraping.

string

status_code

O código de status do trabalho de scraping. Você pode ver os códigos de status do scraper descritos aquiarrow-up-right.

integer

circle-info

Nas seções a seguir, os trechos de código JSON analisados são encurtados quando há mais de um item disponível para o tipo de resultado.

Principal

Exibe uma lista de resultados de notícias não pagos, fornecendo detalhes relevantes para cada artigo.

Chave (results.main)
Descrição
Tipo

url

O URL para o artigo completo.

string

desc

Um trecho curto do artigo completo.

string

title

O título do artigo.

string

source

O nome do site onde o artigo foi publicado.

string

pos_overall

Indica a posição geral do resultado dentro dos resultados principais da SERP de Notícias.

integer

relative_publish_date

Descreve há quanto tempo o artigo foi publicado.

string

Adicional

Apresenta uma lista de artigos em tendência, acompanhada de detalhes relevantes.

Chave (results.additional)
Descrição
Tipo

itens

Uma lista de artigos com seus respectivos detalhes.

array

items.pos

Um indicador único que denota a posição do artigo na lista.

integer

items.url

O URL para o artigo completo.

string

items.title

O título do artigo.

string

items.source

O nome do site onde o artigo foi publicado.

string

items.relative_publish_date

Descreve há quanto tempo o artigo foi publicado.

string

pos_overall

Indica a posição geral do resultado dentro dos resultados adicionais da SERP de Notícias.

integer

section_title

O nome da seção adicional.

string

Atualizado

Isto foi útil?