Documentation has been updated: see help center and changelog in one place.

News Search

Raspa resultados de Google News a gran escala y obtén datos completamente parseados. Extrae artículos con títulos, fuentes y fechas de publicación.

El google_search source está diseñado para recuperar resultados de búsqueda de Google (SERPs). Esta subpágina presenta específicamente datos relacionados con Google News Search. Para explorar otros tipos de resultados, lea aquí: Búsqueda web, Búsqueda de imágenes.

Explorar salida diccionario de datos para cada función de SERP de News, ofreciendo una breve descripción, captura de pantalla, fragmento de código JSON parseado y una tabla que define cada campo parseado. Navegue por los detalles usando la navegación lateral derecha o desplazándose hacia abajo en la página.

Solicitar ejemplos

En los ejemplos a continuación, hacemos una solicitud para obtener páginas de resultados de búsqueda de News para el término de búsqueda adidas en el google.nl dominio.

udm

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "google_search",
        "domain": "nl",
        "query": "adidas",
        "parse": true,
        "context": [
            {
                "key": "udm",
                "value": "12"
            }
        ]
    }'

tbm

Usamos el método de integración síncrono Realtime en nuestros ejemplos. Si desea usar Proxy Endpoint o asíncrono Push-Pull para la integración, consulte los métodos de integración sección.

Valores de parámetros de la solicitud

Genérico

Configuración básica y opciones de personalización para raspar los resultados de búsqueda de Google News.

Parámetro
Descripción
Valor predeterminado

source

Establece el scraper.

google_search

query

La palabra clave o frase a buscar.

-

contexto: udm

Para obtener resultados de búsqueda de News, establezca value en 12. Encuentre otros valores aceptados aquí.

contexto: tbm

Para obtener resultados de búsqueda de News, establezca value en nws. Otros valores aceptados son: app, blg, bks, dsc, isch, pts, plcs, rcp, lcl

-

user_agent_type

Activa el renderizado de JavaScript cuando se establece en html. Más información.

-

parse

Devuelve datos parseados cuando se establece en true. Explore la salida diccionario de datos.

false

callback_url

URL de su endpoint de callback. Más información.

-

user_agent_type

Tipo de dispositivo y navegador. La lista completa se puede encontrar aquí.

desktop

- parámetro obligatorio

- udm y tbm los parámetros de context no pueden usarse juntos en una sola solicitud de raspado; por favor seleccione uno de ellos. Usar ambos simultáneamente puede ocasionar conflictos o comportamientos inesperados.

Operadores avanzados de búsqueda de Google

Al realizar scraping, puede resultar útil combinar los operadores avanzados de búsqueda de Google con su consulta. Esto le permite personalizar el alcance de la búsqueda, asegurando que los resultados sean más relevantes y focalizados. Explore estos comandos especiales aquí y aquí. Vea un ejemplo a continuación.

Localización

Adapte los resultados de búsqueda a ubicaciones geográficas específicas, dominios y idiomas.

Parámetro
Descripción
Valor predeterminado

geo_location

La ubicación geográfica para la que se deben adaptar los resultados. Usar este parámetro correctamente es extremadamente importante para obtener los datos correctos. Para más información, lea sobre nuestras sugeridas geo_location estructuras de parámetros aquí.

-

dominio

Localización de dominio para Google. La lista completa de dominios disponibles se puede encontrar aquí.

com

localidad

Accept-Language valor del encabezado que cambia el idioma de la interfaz web de la página de búsqueda de Google. Más información.

-

Paginación

Controles para gestionar la paginación y la recuperación de resultados de búsqueda.

Parámetro
Descripción
Valor predeterminado

start_page

Número de página inicial.

1

pages

Número de páginas a recuperar.

1

limit

Número de resultados a recuperar en cada página.

10

context:

limit_per_page

Si desea raspar varias páginas con la misma dirección IP, incluya una matriz JSON y especifique los números de página usando la page clave. También debe indicar la cantidad de resultados orgánicos en cada página añadiendo una limit clave. Ver ejemplo.

-

Límite por página

Para usar esta función, incluya un array JSON con objetos JSON que contengan los siguientes datos:

Parámetro
Descripción
Ejemplo

page

El número de la página que le gustaría raspar. Cualquier valor entero mayor que 0 funcionará

1

limit

El número de resultados en la página en cuestión. Cualquier valor entero entre 1 y 100 (inclusive) funcionará.

90

o escribe a nuestro soporte en chat en vivo 24/7.

Filtrado

Opciones para filtrar y refinar los resultados de búsqueda según varios criterios.

Parámetro
Descripción
Valor predeterminado

context:safe_search

Búsqueda segura. Establecer en true para habilitarla.

false

context: tbs

tbs parámetro. Este parámetro es como un contenedor para parámetros más oscuros de google, como limitar/ordenar resultados por fecha así como otros filtros, algunos de los cuales dependen del tbm parámetro (p. ej. tbs=app_os:1 solo está disponible con tbm value app). Más información aquí.

-

Otros

Configuraciones avanzadas adicionales y controles para requisitos especializados.

Parámetro
Descripción
Valor predeterminado

context: nfpr

true desactivará la corrección ortográfica automática

false

Parámetros de contexto

Todos los parámetros de contexto deben añadirse al context array como objetos con key y value pares, p. ej.:

Datos estructurados

SERP Scraper API es capaz de extraer un objeto HTML o JSON que contiene resultados de búsqueda de Google, ofreciendo datos estructurados sobre varios elementos de la página de resultados.

google_search salida estructurada de news

Solo parseamos resultados de búsqueda de news para desktop búsquedas.

Diccionario de datos de salida

Ejemplo HTML

Estructura JSON

La salida estructurada de Google News Search incluye campos como URL, page, results, y otros. La tabla a continuación presenta una lista detallada de cada característica del SERP que parseamos, junto con su descripción y tipo de datos. La tabla también incluye algunos metadatos.

El número de elementos y campos para un tipo de resultado específico puede variar dependiendo de la consulta de búsqueda.

Clave
Descripción
Tipo

url

La URL de la página de búsqueda de Google.

string

results

Un diccionario que contiene los resultados de la búsqueda.

array

results.main

Una lista de resultados de noticias no pagados con sus respectivos detalles.

array

results.additional

Una lista de artículos de tendencia con sus respectivos detalles.

object

results.total_results_count

El número total de resultados encontrados para la consulta de búsqueda.

array

parse_status_code

El código de estado del trabajo de parseo. Puede ver los códigos de estado del parser descritos aquí.

integer

created_at

La marca de tiempo cuando se creó el trabajo de scraping.

timestamp

updated_at

La marca de tiempo cuando el trabajo de scraping fue finalizado.

timestamp

page

Número de página relativo a la paginación del SERP de Google.

integer

job_id

El ID del trabajo asociado con la tarea de scraping.

string

status_code

El código de estado del trabajo de scraping. Puede ver los códigos de estado del scraper descritos aquí.

integer

En las secciones siguientes, los fragmentos de código JSON parseado se acortan cuando hay más de un elemento disponible para el tipo de resultado.

Principal

Muestra una lista de resultados de noticias no pagados, proporcionando detalles relevantes para cada artículo.

Clave (results.main)
Descripción
Tipo

url

La URL al artículo completo.

string

desc

Un breve extracto del artículo completo.

string

title

El título del artículo.

string

source

El nombre del sitio web donde se publica el artículo.

string

pos_overall

Indica la posición general del resultado dentro de los resultados principales de News SERP.

integer

relative_publish_date

Describe cuánto tiempo hace desde que se publicó el artículo.

string

Adicional

Presenta una lista de artículos de tendencia, acompañada de detalles relevantes.

Clave (results.additional)
Descripción
Tipo

items

Una lista de artículos con sus respectivos detalles.

array

items.pos

Un indicador único que denota la posición del artículo en la lista.

integer

items.url

La URL al artículo completo.

string

items.title

El título del artículo.

string

items.source

El nombre del sitio web donde se publica el artículo.

string

items.relative_publish_date

Describe cuánto tiempo hace desde que se publicó el artículo.

string

pos_overall

Indica la posición general del resultado dentro de los resultados adicionales de News SERP.

integer

section_title

El nombre de la sección adicional.

string

Última actualización

¿Te fue útil?