Pesquisa de Notícias

Raspe resultados do Google News em grande escala e obtenha dados completamente analisados. Extraia artigos com títulos, fontes e datas de publicação.

O google_search source destina-se a recuperar resultados do Google Search (SERPs). Esta subpágina apresenta especificamente dados relacionados à Pesquisa de Notícias do Google. Para explorar outros tipos de resultado, leia aqui: Pesquisa na Webarrow-up-right, Pesquisa por Imagemarrow-up-right.

circle-exclamation
circle-info

Explorar saída dicionário de dados para cada recurso SERP de Notícias, oferecendo uma breve descrição, captura de tela, trecho de código JSON parseado e uma tabela definindo cada campo parseado. Navegue pelos detalhes usando a navegação à direita ou rolando a página para baixo.

Amostras de requisição

Nos exemplos abaixo, fazemos uma requisição para obter páginas de resultados de pesquisa de Notícias para o termo de busca adidas no google.nl domínio.

udm

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "google_search",
        "domain": "nl",
        "query": "adidas",
        "parse": true,
        "context": [
            {
                "key": "udm",
                "value": "12"
            }
        ]
    }'

tbm

Usamos o método de integração síncrono Realtime em nossos exemplos. Se você quiser usar Proxy Endpoint ou integração assíncrona Push-Pull consulte os métodos de integração da seção.

Valores dos parâmetros da requisição

Genérico

Configuração básica e opções de personalização para rastrear resultados da pesquisa de Notícias do Google.

Parâmetro
Descrição
Valor Padrão

source

Define o scraper.

google_search

query

A palavra-chave ou frase a ser pesquisada.

-

contexto: udm

Para obter resultados da pesquisa de Notícias, defina value como 12. Encontre outros valores aceitos aquiarrow-up-right.

contexto: tbm

Para obter resultados da pesquisa de Notícias, defina value como nws. Outros valores aceitos são: app, blg, bks, dsc, isch, pts, plcs, rcp, lcl

-

render

Ativa a renderização JavaScript quando definido como html. Mais info.

-

parse

Retorna dados parseados quando definido como true. Explore a saída dicionário de dados.

false

callback_url

URL para o seu endpoint de callback. Mais info.

-

user_agent_type

Tipo de dispositivo e navegador. A lista completa pode ser encontrada aqui.

desktop

- parâmetro obrigatório

- udm e tbm os parâmetros de contexto não podem ser usados juntos em uma única solicitação de raspagem; por favor selecione um deles. Usar ambos simultaneamente pode levar a conflitos ou comportamento inesperado.

Operadores Avançados de Pesquisa do Google

Ao raspar, pode ser útil combinar operadores avançados de pesquisa do Google com sua query. Isso permite personalizar o escopo da busca, garantindo que os resultados sejam mais relevantes e focados. Explore esses comandos especiais aquiarrow-up-right e aquiarrow-up-right. Veja um exemplo abaixo.

Localização

Adapte os resultados da pesquisa a localizações geográficas, domínios e idiomas específicos.

Parâmetro
Descrição
Valor Padrão

geo_location

A localização geográfica para a qual o resultado deve ser adaptado. Usar este parâmetro corretamente é extremamente importante para obter os dados certos. Para mais informações, leia sobre nossas sugeridas geo_location estruturas de parâmetro aqui.

-

domínio

Localização de domínio para o Google. A lista completa de domínios disponíveis pode ser encontrada aquiarrow-up-right.

com

locale

Accept-Language valor do cabeçalho que altera o idioma da interface web da sua página de pesquisa do Google. Mais info.

-

Paginação

Controles para gerenciar a paginação e recuperação dos resultados de pesquisa.

Parâmetro
Descrição
Valor Padrão

start_page

Número da página inicial.

1

pages

Número de páginas a recuperar.

1

limit

Número de resultados a recuperar em cada página.

10

context:

limit_per_page

Se você quiser rastrear várias páginas com o mesmo endereço IP, inclua um array JSON e especifique os números das páginas usando a page chave. Você também deve indicar o número de resultados orgânicos em cada página adicionando uma limit chave. Veja exemplo.

-

Limite por página

Para usar esse recurso, inclua um array JSON com objetos JSON contendo os seguintes dados:

Parâmetro
Descrição
Exemplo

page

O número da página que você gostaria de raspar. Qualquer valor inteiro maior que 0 funcionará

1

limit

O número de resultados na página em questão. Qualquer valor inteiro entre 1 e 100 (inclusivo) funcionará.

90

Solicitar exemplo

Filtragem

Opções para filtrar e refinar resultados de busca com base em vários critérios.

Parâmetro
Descrição
Valor Padrão

context:safe_search

Safe search. Defina como true para habilitá-lo.

false

context: tbs

tbs parâmetro. Este parâmetro é como um contêiner para parâmetros google mais obscuros, como limitar/ordenar resultados por data, bem como outros filtros, alguns dos quais dependem do tbm parâmetro (por exemplo tbs=app_os:1 só está disponível com tbm value app). Mais informações aquiarrow-up-right.

-

Outros

Configurações avançadas adicionais e controles para requisitos especializados.

Parâmetro
Descrição
Valor Padrão

context: nfpr

true desativará a autocorreção ortográfica

false

Parâmetros de contexto

Todos os parâmetros de contexto devem ser adicionados ao context array como objetos com key e value pares, por exemplo:

Dados estruturados

A SERP Scraper API é capaz de extrair um objeto HTML ou JSON que contém os resultados de pesquisa do Google, oferecendo dados estruturados sobre vários elementos da página de resultados.

chevron-rightgoogle_search saída estruturada de notíciashashtag
circle-info

Nós apenas parseamos resultados de pesquisa de notícias para desktop pesquisas.

Dicionário de dados de saída

Exemplo em HTML

Estrutura JSON

A saída estruturada da Pesquisa de Notícias do Google inclui campos como URL, page, results, entre outros. A tabela abaixo apresenta uma lista detalhada de cada recurso do SERP que parseamos, junto com sua descrição e tipo de dado. A tabela também inclui alguns metadados.

circle-info

O número de itens e campos para um tipo de resultado específico pode variar dependendo da consulta de pesquisa.

Chave
Descrição
Tipo

url

A URL da página de pesquisa do Google.

string

results

Um dicionário contendo os resultados da pesquisa.

array

results.main

Uma lista de resultados de notícias não pagos com seus respectivos detalhes.

array

results.additional

Uma lista de artigos em tendência com seus respectivos detalhes.

object

results.total_results_count

O número total de resultados encontrados para a consulta de pesquisa.

array

parse_status_code

O código de status do trabalho de parsing. Você pode ver os códigos de status do parser descritos aquiarrow-up-right.

integer

created_at

O timestamp quando o trabalho de scraping foi criado.

timestamp

updated_at

O timestamp quando o trabalho de scraping foi finalizado.

timestamp

page

Número da página relativo à paginação do SERP do Google.

integer

job_id

O ID do job associado ao trabalho de scraping.

string

status_code

O código de status do trabalho de scraping. Você pode ver os códigos de status do scraper descritos aquiarrow-up-right.

integer

circle-info

Nas seções seguintes, os trechos de código JSON parseado são encurtados quando há mais de um item disponível para o tipo de resultado.

Principal

Exibe uma lista de resultados de notícias não pagos, fornecendo detalhes relevantes para cada artigo.

Chave (results.main)
Descrição
Tipo

url

A URL para o artigo completo.

string

desc

Um breve trecho do artigo completo.

string

title

O título do artigo.

string

source

O nome do site onde o artigo foi publicado.

string

pos_overall

Indica a posição geral do resultado dentro dos resultados principais da SERP de Notícias.

integer

relative_publish_date

Descreve há quanto tempo o artigo foi publicado.

string

Adicional

Apresenta uma lista de artigos em tendência, acompanhada de detalhes relevantes.

Chave (results.additional)
Descrição
Tipo

items

Uma lista de artigos com seus respectivos detalhes.

array

items.pos

Um indicador único que denota a posição do artigo na lista.

integer

items.url

A URL para o artigo completo.

string

items.title

O título do artigo.

string

items.source

O nome do site onde o artigo foi publicado.

string

items.relative_publish_date

Descreve há quanto tempo o artigo foi publicado.

string

pos_overall

Indica a posição geral do resultado dentro dos resultados adicionais da SERP de Notícias.

integer

section_title

O nome da seção adicional.

string

Atualizado

Isto foi útil?