Pesquisa de Notícias
Raspe resultados do Google News em grande escala e obtenha dados completamente analisados. Extraia artigos com títulos, fontes e datas de publicação.
O google_search source destina-se a recuperar resultados do Google Search (SERPs). Esta subpágina apresenta especificamente dados relacionados à Pesquisa de Notícias do Google. Para explorar outros tipos de resultado, leia aqui: Pesquisa na Web, Pesquisa por Imagem.
Para rastrear a pesquisa de Notícias do Google, inclua o context:udm parâmetro com o valor definido para 12 ou context:tbm parâmetro com o valor definido para nws.
Amostras de requisição
Nos exemplos abaixo, fazemos uma requisição para obter páginas de resultados de pesquisa de Notícias para o termo de busca adidas no google.nl domínio.
udm
curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
"source": "google_search",
"domain": "nl",
"query": "adidas",
"parse": true,
"context": [
{
"key": "udm",
"value": "12"
}
]
}'import requests
from pprint import pprint
# Estruturar payload.
payload = {
'source': 'google_search',
'domain': 'nl',
'query': 'adidas',
'parse': True,
'context': [
{'key': 'udm', 'value': '12'},
],
}
# Obter resposta.
response = requests.post(
'https://realtime.oxylabs.io/v1/queries',
auth=('USERNAME', 'PASSWORD'),
json=payload,
)
# Imprimir a resposta formatada no stdout.
pprint(response.json())tbm
Usamos o método de integração síncrono Realtime em nossos exemplos. Se você quiser usar Proxy Endpoint ou integração assíncrona Push-Pull consulte os métodos de integração da seção.
Valores dos parâmetros da requisição
Genérico
Configuração básica e opções de personalização para rastrear resultados da pesquisa de Notícias do Google.
source
Define o scraper.
google_search
query
A palavra-chave ou frase a ser pesquisada.
-
contexto: udm
Para obter resultados da pesquisa de Notícias, defina value como 12. Encontre outros valores aceitos aqui.
contexto: tbm
Para obter resultados da pesquisa de Notícias, defina value como nws. Outros valores aceitos são: app, blg, bks, dsc, isch, pts, plcs, rcp, lcl
-
- parâmetro obrigatório
- udm e tbm os parâmetros de contexto não podem ser usados juntos em uma única solicitação de raspagem; por favor selecione um deles. Usar ambos simultaneamente pode levar a conflitos ou comportamento inesperado.
Operadores Avançados de Pesquisa do Google
Ao raspar, pode ser útil combinar operadores avançados de pesquisa do Google com sua query. Isso permite personalizar o escopo da busca, garantindo que os resultados sejam mais relevantes e focados. Explore esses comandos especiais aqui e aqui. Veja um exemplo abaixo.
Localização
Adapte os resultados da pesquisa a localizações geográficas, domínios e idiomas específicos.
geo_location
A localização geográfica para a qual o resultado deve ser adaptado. Usar este parâmetro corretamente é extremamente importante para obter os dados certos. Para mais informações, leia sobre nossas sugeridas geo_location estruturas de parâmetro aqui.
-
domínio
Localização de domínio para o Google. A lista completa de domínios disponíveis pode ser encontrada aqui.
com
locale
Accept-Language valor do cabeçalho que altera o idioma da interface web da sua página de pesquisa do Google. Mais info.
-
Paginação
Controles para gerenciar a paginação e recuperação dos resultados de pesquisa.
start_page
Número da página inicial.
1
pages
Número de páginas a recuperar.
1
limit
Número de resultados a recuperar em cada página.
10
context:
limit_per_page
Se você quiser rastrear várias páginas com o mesmo endereço IP, inclua um array JSON e especifique os números das páginas usando a page chave. Você também deve indicar o número de resultados orgânicos em cada página adicionando uma limit chave. Veja exemplo.
-
Limite por página
Para usar esse recurso, inclua um array JSON com objetos JSON contendo os seguintes dados:
page
O número da página que você gostaria de raspar. Qualquer valor inteiro maior que 0 funcionará
1
limit
O número de resultados na página em questão. Qualquer valor inteiro entre 1 e 100 (inclusivo) funcionará.
90
Solicitar exemplo
Filtragem
Opções para filtrar e refinar resultados de busca com base em vários critérios.
context:safe_search
Safe search. Defina como true para habilitá-lo.
false
context:
tbs
tbs parâmetro. Este parâmetro é como um contêiner para parâmetros google mais obscuros, como limitar/ordenar resultados por data, bem como outros filtros, alguns dos quais dependem do tbm parâmetro (por exemplo tbs=app_os:1 só está disponível com tbm value app). Mais informações aqui.
-
Outros
Configurações avançadas adicionais e controles para requisitos especializados.
context:
nfpr
true desativará a autocorreção ortográfica
false
Parâmetros de contexto
Todos os parâmetros de contexto devem ser adicionados ao context array como objetos com key e value pares, por exemplo:
Dados estruturados
A SERP Scraper API é capaz de extrair um objeto HTML ou JSON que contém os resultados de pesquisa do Google, oferecendo dados estruturados sobre vários elementos da página de resultados.
Dicionário de dados de saída
Exemplo em HTML

Estrutura JSON
A saída estruturada da Pesquisa de Notícias do Google inclui campos como URL, page, results, entre outros. A tabela abaixo apresenta uma lista detalhada de cada recurso do SERP que parseamos, junto com sua descrição e tipo de dado. A tabela também inclui alguns metadados.
url
A URL da página de pesquisa do Google.
string
results
Um dicionário contendo os resultados da pesquisa.
array
results.main
Uma lista de resultados de notícias não pagos com seus respectivos detalhes.
array
results.additional
Uma lista de artigos em tendência com seus respectivos detalhes.
object
results.total_results_count
O número total de resultados encontrados para a consulta de pesquisa.
array
parse_status_code
O código de status do trabalho de parsing. Você pode ver os códigos de status do parser descritos aqui.
integer
created_at
O timestamp quando o trabalho de scraping foi criado.
timestamp
updated_at
O timestamp quando o trabalho de scraping foi finalizado.
timestamp
page
Número da página relativo à paginação do SERP do Google.
integer
job_id
O ID do job associado ao trabalho de scraping.
string
status_code
O código de status do trabalho de scraping. Você pode ver os códigos de status do scraper descritos aqui.
integer
Principal
Exibe uma lista de resultados de notícias não pagos, fornecendo detalhes relevantes para cada artigo.

url
A URL para o artigo completo.
string
desc
Um breve trecho do artigo completo.
string
title
O título do artigo.
string
source
O nome do site onde o artigo foi publicado.
string
pos_overall
Indica a posição geral do resultado dentro dos resultados principais da SERP de Notícias.
integer
relative_publish_date
Descreve há quanto tempo o artigo foi publicado.
string
Adicional
Apresenta uma lista de artigos em tendência, acompanhada de detalhes relevantes.

items
Uma lista de artigos com seus respectivos detalhes.
array
items.pos
Um indicador único que denota a posição do artigo na lista.
integer
items.url
A URL para o artigo completo.
string
items.title
O título do artigo.
string
items.source
O nome do site onde o artigo foi publicado.
string
items.relative_publish_date
Descreve há quanto tempo o artigo foi publicado.
string
pos_overall
Indica a posição geral do resultado dentro dos resultados adicionais da SERP de Notícias.
integer
section_title
O nome da seção adicional.
string
Atualizado
Isto foi útil?

