News Search
Raspa resultados de Google News a gran escala y obtén datos completamente parseados. Extrae artículos con títulos, fuentes y fechas de publicación.
El google_search source está diseñado para recuperar resultados de búsqueda de Google (SERPs). Esta subpágina presenta específicamente datos relacionados con Google News Search. Para explorar otros tipos de resultados, lea aquí: Búsqueda web, Búsqueda de imágenes.
Para raspar la búsqueda de Google News, incluya el context:udm parámetro con el valor establecido en 12 o context:tbm parámetro con el valor establecido en nws.
Solicitar ejemplos
En los ejemplos a continuación, hacemos una solicitud para obtener páginas de resultados de búsqueda de News para el término de búsqueda adidas en el google.nl dominio.
udm
curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
"source": "google_search",
"domain": "nl",
"query": "adidas",
"parse": true,
"context": [
{
"key": "udm",
"value": "12"
}
]
}'import requests
from pprint import pprint
# Estructurar payload.
payload = {
'source': 'google_search',
'domain': 'nl',
'query': 'adidas',
'parse': True,
'context': [
{'key': 'udm', 'value': '12'},
],
}
# Obtener respuesta.
response = requests.post(
'https://realtime.oxylabs.io/v1/queries',
auth=('USERNAME', 'PASSWORD'),
json=payload,
)
# Imprimir la respuesta formateada en stdout.
pprint(response.json())tbm
Usamos el método de integración síncrono Realtime en nuestros ejemplos. Si desea usar Proxy Endpoint o asíncrono Push-Pull para la integración, consulte los métodos de integración sección.
Valores de parámetros de la solicitud
Genérico
Configuración básica y opciones de personalización para raspar los resultados de búsqueda de Google News.
source
Establece el scraper.
google_search
query
La palabra clave o frase a buscar.
-
contexto: udm
Para obtener resultados de búsqueda de News, establezca value en 12. Encuentre otros valores aceptados aquí.
contexto: tbm
Para obtener resultados de búsqueda de News, establezca value en nws. Otros valores aceptados son: app, blg, bks, dsc, isch, pts, plcs, rcp, lcl
-
parse
Devuelve datos parseados cuando se establece en true. Explore la salida diccionario de datos.
false
- parámetro obligatorio
- udm y tbm los parámetros de context no pueden usarse juntos en una sola solicitud de raspado; por favor seleccione uno de ellos. Usar ambos simultáneamente puede ocasionar conflictos o comportamientos inesperados.
Operadores avanzados de búsqueda de Google
Al realizar scraping, puede resultar útil combinar los operadores avanzados de búsqueda de Google con su consulta. Esto le permite personalizar el alcance de la búsqueda, asegurando que los resultados sean más relevantes y focalizados. Explore estos comandos especiales aquí y aquí. Vea un ejemplo a continuación.
Localización
Adapte los resultados de búsqueda a ubicaciones geográficas específicas, dominios y idiomas.
geo_location
La ubicación geográfica para la que se deben adaptar los resultados. Usar este parámetro correctamente es extremadamente importante para obtener los datos correctos. Para más información, lea sobre nuestras sugeridas geo_location estructuras de parámetros aquí.
-
dominio
Localización de dominio para Google. La lista completa de dominios disponibles se puede encontrar aquí.
com
localidad
Accept-Language valor del encabezado que cambia el idioma de la interfaz web de la página de búsqueda de Google. Más información.
-
Paginación
Controles para gestionar la paginación y la recuperación de resultados de búsqueda.
start_page
Número de página inicial.
1
pages
Número de páginas a recuperar.
1
limit
Número de resultados a recuperar en cada página.
10
context:
limit_per_page
Si desea raspar varias páginas con la misma dirección IP, incluya una matriz JSON y especifique los números de página usando la page clave. También debe indicar la cantidad de resultados orgánicos en cada página añadiendo una limit clave. Ver ejemplo.
-
Límite por página
Para usar esta función, incluya un array JSON con objetos JSON que contengan los siguientes datos:
page
El número de la página que le gustaría raspar. Cualquier valor entero mayor que 0 funcionará
1
limit
El número de resultados en la página en cuestión. Cualquier valor entero entre 1 y 100 (inclusive) funcionará.
90
o escribe a nuestro soporte en chat en vivo 24/7.
Filtrado
Opciones para filtrar y refinar los resultados de búsqueda según varios criterios.
context:safe_search
Búsqueda segura. Establecer en true para habilitarla.
false
context:
tbs
tbs parámetro. Este parámetro es como un contenedor para parámetros más oscuros de google, como limitar/ordenar resultados por fecha así como otros filtros, algunos de los cuales dependen del tbm parámetro (p. ej. tbs=app_os:1 solo está disponible con tbm value app). Más información aquí.
-
Otros
Configuraciones avanzadas adicionales y controles para requisitos especializados.
context:
nfpr
true desactivará la corrección ortográfica automática
false
Parámetros de contexto
Todos los parámetros de contexto deben añadirse al context array como objetos con key y value pares, p. ej.:
Datos estructurados
SERP Scraper API es capaz de extraer un objeto HTML o JSON que contiene resultados de búsqueda de Google, ofreciendo datos estructurados sobre varios elementos de la página de resultados.
Diccionario de datos de salida
Ejemplo HTML

Estructura JSON
La salida estructurada de Google News Search incluye campos como URL, page, results, y otros. La tabla a continuación presenta una lista detallada de cada característica del SERP que parseamos, junto con su descripción y tipo de datos. La tabla también incluye algunos metadatos.
url
La URL de la página de búsqueda de Google.
string
results
Un diccionario que contiene los resultados de la búsqueda.
array
results.main
Una lista de resultados de noticias no pagados con sus respectivos detalles.
array
results.additional
Una lista de artículos de tendencia con sus respectivos detalles.
object
results.total_results_count
El número total de resultados encontrados para la consulta de búsqueda.
array
parse_status_code
El código de estado del trabajo de parseo. Puede ver los códigos de estado del parser descritos aquí.
integer
created_at
La marca de tiempo cuando se creó el trabajo de scraping.
timestamp
updated_at
La marca de tiempo cuando el trabajo de scraping fue finalizado.
timestamp
page
Número de página relativo a la paginación del SERP de Google.
integer
job_id
El ID del trabajo asociado con la tarea de scraping.
string
status_code
El código de estado del trabajo de scraping. Puede ver los códigos de estado del scraper descritos aquí.
integer
Principal
Muestra una lista de resultados de noticias no pagados, proporcionando detalles relevantes para cada artículo.

url
La URL al artículo completo.
string
desc
Un breve extracto del artículo completo.
string
title
El título del artículo.
string
source
El nombre del sitio web donde se publica el artículo.
string
pos_overall
Indica la posición general del resultado dentro de los resultados principales de News SERP.
integer
relative_publish_date
Describe cuánto tiempo hace desde que se publicó el artículo.
string
Adicional
Presenta una lista de artículos de tendencia, acompañada de detalles relevantes.

items
Una lista de artículos con sus respectivos detalles.
array
items.pos
Un indicador único que denota la posición del artículo en la lista.
integer
items.url
La URL al artículo completo.
string
items.title
El título del artículo.
string
items.source
El nombre del sitio web donde se publica el artículo.
string
items.relative_publish_date
Describe cuánto tiempo hace desde que se publicó el artículo.
string
pos_overall
Indica la posición general del resultado dentro de los resultados adicionales de News SERP.
integer
section_title
El nombre de la sección adicional.
string
Última actualización
¿Te fue útil?

