Pesquisa de notícias

Raspe resultados do Google News em grande escala e obtenha dados totalmente analisados. Extraia artigos com títulos, fontes e datas de publicação.

O google_search a fonte foi projetada para recuperar resultados da Pesquisa Google (SERPs). Esta subpágina apresenta especificamente dados relacionados à Pesquisa Google Notícias. Para explorar outros tipos de resultados, leia aqui: Pesquisa na Web, Pesquisa de imagens.

Explorar saída dicionário de dados para cada recurso de SERP de Notícias, oferecendo uma breve descrição, captura de tela, trecho de código JSON analisado e uma tabela definindo cada campo analisado. Navegue pelos detalhes usando a navegação à direita ou rolando a página para baixo.

Exemplos de solicitação

Nos exemplos abaixo, fazemos uma solicitação para obter páginas de resultados da pesquisa de Notícias para o termo de busca adidas.

udm

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "google_search",
        "query": "adidas",
        "parse": true,
        "context": [
            {
                "key": "udm",
                "value": "12"
            }
        ]
    }'

tbm

Usamos o método de integração Realtime síncrona em nossos exemplos. Se você quiser usar Proxy Endpoint ou a integração assíncrona Push-Pull , consulte a seção métodos de integração .

Valores dos parâmetros da solicitação

Genérico

Opções básicas de configuração e personalização para coletar resultados da pesquisa do Google Notícias.

Parâmetro
Descrição
Valor padrão

source

Define o scraper.

google_search

query

A palavra-chave ou frase para pesquisar.

-

context: udm

Para obter resultados da pesquisa de Notícias, defina value como 12. Encontre outros valores aceitos aqui.

context: tbm

Para obter resultados da pesquisa de Notícias, defina value como nws. Outros valores aceitos são: app, blg, bks, dsc, isch, pts, plcs, rcp, lcl

-

render

Definir como html é necessário para esta fonte. Mais informações.

-

parse

Retorna dados analisados quando definido como true. Explore a saída dicionário de dados.

false

callback_url

URL para seu endpoint de callback. Mais informações

-

user_agent_type

Tipo de dispositivo e navegador. A lista completa pode ser encontrada aqui.

desktop

- parâmetro obrigatório

- udm e tbm os parâmetros de contexto não podem ser usados juntos em uma única solicitação de scraping; selecione um deles. Usar ambos simultaneamente pode causar conflitos ou comportamento inesperado.

Operadores avançados de pesquisa do Google

Ao raspar, pode ser útil combinar operadores avançados de pesquisa do Google com sua consulta. Isso permite personalizar o escopo da pesquisa, garantindo que os resultados sejam mais relevantes e focados. Explore estes comandos especiais aqui e aqui. Veja um exemplo abaixo.

Localização

Adapte os resultados de busca para locais geográficos e idiomas específicos.

Parâmetro
Descrição
Valor padrão

geo_location

A localização geográfica para a qual o resultado deve ser adaptado. Usar este parâmetro corretamente é extremamente importante para obter os dados certos. Para mais informações, leia sobre nossas geo_location estruturas de parâmetros aqui.

-

locale

valor do cabeçalho Accept-Language Mais informações.

-

Paginação

Controles para gerenciar a paginação e a recuperação dos resultados da pesquisa.

Parâmetro
Descrição
Valor padrão

start_page

Número da página inicial.

1

pages

Número de páginas para recuperar.

1

limit

Número de resultados para recuperar em cada página.

10

context:

limit_per_page

Se você quiser coletar várias páginas com o mesmo endereço IP, inclua um array JSON e especifique os números das páginas usando a page key. Você também deve indicar o número de resultados orgânicos em cada página adicionando uma limit key. Veja o exemplo.

-

Limite por página

Para usar este recurso, inclua um array JSON com objetos JSON contendo os dados a seguir:

Parâmetro
Descrição
Exemplo

page

O número da página que você deseja raspar. Qualquer valor inteiro maior que 0 funcionará

1

limit

O número de resultados na página em questão. Qualquer valor inteiro entre 1 e 100 (inclusive) funcionará.

90

Exemplo de solicitação

Filtragem

Opções para filtrar e refinar os resultados de busca com base em vários critérios.

Parâmetro
Descrição
Valor padrão

context:safe_search

Pesquisa segura. Defina como true para ativá-la.

false

context: tbs

tbs parâmetro. Esse parâmetro funciona como um contêiner para outros parâmetros menos óbvios do Google, como limitar/ordenar resultados por data, além de outros filtros, alguns dos quais dependem do tbm (por exemplo, tbs=app_os:1 só está disponível com o valor tbm ). Mais informações app. aqui.

-

Outros

Configurações e controles avançados adicionais para requisitos especializados.

Parâmetro
Descrição
Valor padrão

context: nfpr

true desativará a autocorreção ortográfica

false

Parâmetros de contexto

Todos os parâmetros de contexto devem ser adicionados ao array context como objetos com pares key e ). Mais informações , por exemplo:

Dados estruturados

A SERP Scraper API é capaz de extrair um objeto HTML ou JSON que contém resultados de pesquisa do Google, oferecendo dados estruturados sobre vários elementos da página de resultados.

google_search saída estruturada de notícias

Nós só analisamos resultados de pesquisa de notícias para desktop pesquisas.

Dicionário de dados de saída

Exemplo de HTML

Estrutura JSON

A saída estruturada da Pesquisa Google Notícias inclui campos como URL, page, resultados, e outros. A tabela abaixo apresenta uma lista detalhada de cada recurso de SERP que analisamos, junto com sua descrição e tipo de dado. A tabela também inclui alguns metadados.

O número de itens e campos para um tipo de resultado específico pode variar dependendo da consulta de pesquisa.

Chave
Descrição
Tipo

url

A URL da página de pesquisa do Google.

string

resultados

Um dicionário contendo os resultados da pesquisa.

array

results.main

Uma lista de resultados de notícias não pagos com seus respectivos detalhes.

array

results.additional

Uma lista de artigos em alta com seus respectivos detalhes.

object

results.total_results_count

O número total de resultados encontrados para a consulta de pesquisa.

array

parse_status_code

O código de status do trabalho de análise. Você pode ver os códigos de status do parser descritos aqui.

integer

created_at

O timestamp em que o trabalho de scraping foi criado.

timestamp

updated_at

O timestamp em que o trabalho de scraping foi concluído.

timestamp

page

Número da página relativo à paginação da SERP do Google.

integer

job_id

O ID do trabalho associado ao trabalho de scraping.

string

status_code

O código de status do trabalho de scraping. Você pode ver os códigos de status do scraper descritos aqui.

integer

Nas seções a seguir, os trechos de código JSON analisados são abreviados quando há mais de um item disponível para o tipo de resultado.

Principal

Exibe uma lista de resultados de notícias não pagos, fornecendo detalhes relevantes para cada artigo.

Chave (results.main)
Descrição
Tipo

url

A URL do artigo completo.

string

desc

Um breve trecho do artigo completo.

string

title

O título do artigo.

string

source

O nome do site onde o artigo é publicado.

string

pos_overall

Indica a posição geral do resultado dentro dos resultados principais da SERP de Notícias.

integer

relative_publish_date

Descreve há quanto tempo o artigo foi publicado.

string

Adicional

Apresenta uma lista de artigos em alta, acompanhada de detalhes relevantes.

Chave (results.additional)
Descrição
Tipo

itens

Uma lista de artigos com seus respectivos detalhes.

array

items.pos

Um indicador único que denota a posição do artigo na lista.

integer

items.url

A URL do artigo completo.

string

items.title

O título do artigo.

string

items.source

O nome do site onde o artigo é publicado.

string

items.relative_publish_date

Descreve há quanto tempo o artigo foi publicado.

string

pos_overall

Indica a posição geral do resultado dentro dos resultados adicionais da SERP de Notícias.

integer

section_title

O nome da seção adicional.

string

Atualizado

Isto foi útil?