Búsqueda de noticias

Haz scraping de resultados de Google News a gran escala y obtén datos completamente analizados. Extrae artículos con títulos, fuentes y fechas de publicación.

El google_search source está diseñado para recuperar resultados de Google Search (SERPs). Esta subpágina presenta específicamente datos relacionados con Google News Search. Para explorar otros tipos de resultados, lea aquí: Web Search, Búsqueda de imágenes.

Explorar salida diccionario de datos para cada función de News SERP, ofreciendo una breve descripción, captura de pantalla, fragmento de código JSON parseado y una tabla que define cada campo parseado. Navegue por los detalles usando la navegación del lado derecho o desplazándose hacia abajo en la página.

Ejemplos de solicitud

En los ejemplos a continuación, hacemos una solicitud para obtener páginas de resultados de búsqueda de News para el término de búsqueda adidas.

udm

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "google_search",
        "query": "adidas",
        "parse": true,
        "context": [
            {
                "key": "udm",
                "value": "12"
            }
        ]
    }'

tbm

Usamos el método de integración síncrona Realtime en nuestros ejemplos. Si deseas usar Proxy Endpoint o la integración asíncrona Push-Pull consulta la sección de métodos de integración .

Valores de los parámetros de solicitud

Genérico

Opciones básicas de configuración y personalización para extraer resultados de Google News search.

Parámetro
Descripción
Valor predeterminado

source

Establece el scraper.

google_search

query

La palabra clave o frase a buscar.

-

context: udm

Para obtener resultados de News search, establezca value en 12. Encuentre otros valores aceptados aquí.

context: tbm

Para obtener resultados de News search, establezca value en nws. Otros valores aceptados son: app, blg, bks, dsc, isch, pts, plcs, rcp, lcl

-

render

Establecerlo en html es requerido para esta source. Más información.

-

parse

Devuelve datos analizados cuando se establece en true. Explora el diccionario de datos.

false

callback_url

URL de tu endpoint de callback. Más información

-

user_agent_type

Tipo de dispositivo y navegador. La lista completa se puede encontrar aquí.

desktop

- parámetro obligatorio

- udm y tbm los parámetros context no se pueden usar juntos en una sola solicitud de scraping; por favor, seleccione uno de ellos. Usar ambos simultáneamente puede provocar conflictos o un comportamiento inesperado.

Operadores avanzados de búsqueda de Google

Al extraer datos, puede resultarte útil combinar operadores avanzados de búsqueda de Google con tu consulta. Esto te permite personalizar el alcance de la búsqueda, asegurando que los resultados sean más relevantes y específicos. Explora estos comandos especiales aquí y aquí. Consulta un ejemplo a continuación.

Localización

Adapta los resultados de búsqueda a ubicaciones geográficas e idiomas específicos.

Parámetro
Descripción
Valor predeterminado

geo_location

La ubicación geográfica para la que se debe adaptar el resultado. Usar este parámetro correctamente es extremadamente importante para obtener los datos correctos. Para más información, lee sobre nuestras geo_location estructuras de parámetros aquí.

-

locale

Accept-Language valor del encabezado que cambia el idioma de la interfaz web de tu página de búsqueda de Google. Más información.

-

Paginación

Controles para gestionar la paginación y la recuperación de resultados de búsqueda.

Parámetro
Descripción
Valor predeterminado

start_page

Número de página inicial.

1

pages

Número de páginas a recuperar.

1

limit

Número de resultados a recuperar en cada página.

10

context:

limit_per_page

Si desea extraer varias páginas con la misma dirección IP, incluya un array JSON y especifique los números de página usando la page key. También debe indicar el número de resultados orgánicos en cada página añadiendo una limit key. Ver ejemplo.

-

Límite por página

Para usar esta función, incluye un arreglo JSON con objetos JSON que contengan los siguientes datos:

Parámetro
Descripción
Ejemplo

page

El número de la página que deseas extraer. Cualquier valor entero mayor que 0 funcionará

1

limit

El número de resultados en la página en cuestión. Cualquier valor entero entre 1 y 100 (incluido) funcionará.

90

Ejemplo de solicitud

Filtrado

Opciones para filtrar y refinar los resultados de búsqueda según varios criterios.

Parámetro
Descripción
Valor predeterminado

context:safe_search

Búsqueda segura. Establécelo en true para habilitarla.

false

context: tbs

tbs parámetro. Este parámetro funciona como un contenedor para parámetros de Google más obscuros, como limitar/ordenar resultados por fecha, así como otros filtros, algunos de los cuales dependen de tbm (p. ej. tbs=app_os:1 solo está disponible con el tbm valor app). Más información aquí.

-

Otros

Configuraciones y controles avanzados adicionales para requisitos especializados.

Parámetro
Descripción
Valor predeterminado

context: nfpr

true desactivará la autocorrección ortográfica

false

Parámetros de contexto

Todos los parámetros de contexto deben añadirse al arreglo context como objetos con pares key y valor value, por ejemplo.:

Datos estructurados

SERP Scraper API es capaz de extraer un objeto HTML o JSON que contiene resultados de búsqueda de Google, ofreciendo datos estructurados sobre varios elementos de la página de resultados.

google_search salida estructurada de news

Solo analizamos los resultados de búsqueda de noticias para desktop búsquedas.

Diccionario de datos de salida

Ejemplo HTML

Estructura JSON

La salida estructurada de Google News Search incluye campos como URL, page, resultados, y otros. La tabla siguiente presenta una lista detallada de cada función de SERP que analizamos, junto con su descripción y tipo de datos. La tabla también incluye algunos metadatos.

El número de elementos y campos para un tipo de resultado específico puede variar según la consulta de búsqueda.

Clave
Descripción
Tipo

url

La URL de la página de búsqueda de Google.

string

resultados

Un diccionario que contiene los resultados de la búsqueda.

array

results.main

Una lista de resultados de noticias no pagados con sus respectivos detalles.

array

results.additional

Una lista de artículos en tendencia con sus respectivos detalles.

object

results.total_results_count

El número total de resultados encontrados para la consulta de búsqueda.

array

parse_status_code

El código de estado del trabajo de análisis. Puedes ver los códigos de estado del analizador descritos aquí.

integer

created_at

La marca de tiempo cuando se creó el trabajo de scraping.

timestamp

updated_at

La marca de tiempo cuando terminó el trabajo de scraping.

timestamp

page

Número de página relativo a la paginación de la SERP de Google.

integer

job_id

El ID del trabajo asociado con el trabajo de scraping.

string

status_code

El código de estado del trabajo de scraping. Puedes ver los códigos de estado del scraper descritos aquí.

integer

En las siguientes secciones, los fragmentos de código JSON analizados están abreviados cuando hay más de un elemento disponible para el tipo de resultado.

Main

Muestra una lista de resultados de noticias no pagados, proporcionando detalles relevantes para cada artículo.

Key (results.main)
Descripción
Tipo

url

La URL del artículo completo.

string

desc

Un breve extracto del artículo completo.

string

title

El título del artículo.

string

source

El nombre del sitio web donde se publica el artículo.

string

pos_overall

Indica la posición general del resultado dentro de los resultados principales de News SERP.

integer

relative_publish_date

Describe hace cuánto tiempo se publicó el artículo.

string

Adicional

Presenta una lista de artículos en tendencia, acompañada de detalles relevantes.

Key (results.additional)
Descripción
Tipo

items

Una lista de artículos con sus respectivos detalles.

array

items.pos

Un indicador único que denota la posición del artículo en la lista.

integer

items.url

La URL del artículo completo.

string

items.title

El título del artículo.

string

items.source

El nombre del sitio web donde se publica el artículo.

string

items.relative_publish_date

Describe hace cuánto tiempo se publicó el artículo.

string

pos_overall

Indica la posición general del resultado dentro de los resultados adicionales de News SERP.

integer

section_title

El nombre de la sección adicional.

string

Última actualización

¿Te fue útil?