circle-check
Documentation has been updated: see help center and changelog in one place.

Búsqueda de noticias

Raspa resultados de Google News a gran escala y obtén datos completamente parseados. Extrae artículos con títulos, fuentes y fechas de publicación.

El google_search source está diseñado para recuperar resultados de búsqueda de Google (SERP). Esta subpágina presenta específicamente datos relacionados con la Búsqueda de Noticias de Google. Para explorar otros tipos de resultados, lea aquí: Búsqueda webarrow-up-right, Búsqueda de imágenesarrow-up-right.

circle-exclamation
circle-info

Explorar salida diccionario de datos para cada característica de SERP de Noticias, ofreciendo una breve descripción, captura de pantalla, fragmento de código JSON analizado y una tabla que define cada campo analizado. Navegue por los detalles usando la navegación del lado derecho o desplazándose hacia abajo en la página.

Muestras de solicitud

En los ejemplos siguientes, hacemos una solicitud para obtener páginas de resultados de búsqueda de Noticias para el término de búsqueda adidas.

para activarla.

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "google_search",
        "query": "adidas",
        "parse": true,
        "context": [
            {
                "key": "udm",
                "value": "12"
            }
        ]
    }'

El parámetro permite cambiar entre diferentes pestañas de búsqueda, como imágenes, lugares o videos, para personalizar el tipo de resultados mostrados. Encuentre los valores aceptados

Usamos Realtime método de integración en nuestros ejemplos. Si desea usar Proxy Endpoint o asincrónico Push-Pull integración, consulte el métodos de integración sección.

Valores de parámetros de la solicitud

Genérico

Configuración básica y opciones de personalización para rastrear resultados de búsqueda de Google News.

Parámetro
Descripción
Valor predeterminado

source

Establece el scraper.

google_search

query

La palabra clave o frase para buscar.

-

context: para activarla.

Para obtener resultados de búsqueda de Noticias, establezca el valor en 12. Encuentre otros valores aceptados aquíarrow-up-right.

context: El parámetro permite cambiar entre diferentes pestañas de búsqueda, como imágenes, lugares o videos, para personalizar el tipo de resultados mostrados. Encuentre los valores aceptados

Para obtener resultados de búsqueda de Noticias, establezca el valor en isch. Otros valores aceptados son: . Los valores aceptados son:, app, blg, bks, dsc, nws, pts, plcs, rcp

-

render

Activa el renderizado de JavaScript cuando se establece en html. Más información.

-

parse

Devuelve datos analizados cuando se establece en true. Explorar el diccionario de datos.

false

callback_url

URL de su endpoint de callback. Más información.

-

user_agent_type

Tipo de dispositivo y navegador. La lista completa se puede encontrar aquí.

desktop

- parámetro obligatorio

- para activarla. y El parámetro permite cambiar entre diferentes pestañas de búsqueda, como imágenes, lugares o videos, para personalizar el tipo de resultados mostrados. Encuentre los valores aceptados los parámetros context no pueden usarse juntos en una sola solicitud de rastreo; por favor seleccione uno de ellos. Usar ambos simultáneamente puede provocar conflictos o comportamientos inesperados.

Operadores de búsqueda avanzada de Google

Al raspar, puede resultar útil combinar operadores avanzados de búsqueda de Google con su consulta. Le permite personalizar el alcance de la búsqueda, asegurando que los resultados sean más relevantes y centrados. Explore estos comandos especiales aquíarrow-up-right y aquíarrow-up-right. Vea un ejemplo a continuación.

Localización

Adapte los resultados de búsqueda a ubicaciones geográficas e idiomas específicos.

Parámetro
Descripción
Valor predeterminado

geo_location

La ubicación geográfica para la cual se deben adaptar los resultados. Usar este parámetro correctamente es extremadamente importante para obtener los datos correctos. Para más información, lea sobre nuestras sugeridas geo_location estructuras de parámetros aquí.

-

locale

Accept-Language valor del encabezado que cambia el idioma de la interfaz web de la página de búsqueda de Google. Más información.

-

Paginación

Controles para gestionar la paginación y la recuperación de resultados de búsqueda.

Parámetro
Descripción
Valor predeterminado

start_page

Número de página inicial.

1

pages

Número de páginas a recuperar.

1

limit

Número de resultados a recuperar en cada página.

10

context:

Número de resultados a recuperar en cada página.

Si desea rastrear múltiples páginas con la misma dirección IP, incluya un arreglo JSON y especifique los números de página usando la Raspe múltiples páginas usando la misma dirección IP y sesión (conjunto de cookies). Al especificar los números de página en un array JSON con la clave. También debe indicar el número de resultados orgánicos en cada página agregando una limit clave. clave, puede minimizar la posibilidad de ver resultados orgánicos superpuestos entre páginas (p. ej., el último resultado orgánico de la primera página siendo el mismo que el primer resultado orgánico de la segunda página)..

-

La Web Scraper API admite completamente el desplazamiento continuo de Google Search. Detecta automáticamente los diseños de desplazamiento continuo, cargando eficientemente los resultados orgánicos solicitados sin parámetros adicionales requeridos.

Debido a cambios recientes en los límites de Google, hemos ajustado el comportamiento de la Web Scraper API. El máximo de resultados por página coincidirá con la salida orgánica de Google, que suele ser de 10 resultados.

Parámetro
Descripción
Para usar esta función, incluya un array JSON con objetos JSON que contengan los siguientes datos:

Raspe múltiples páginas usando la misma dirección IP y sesión (conjunto de cookies). Al especificar los números de página en un array JSON con la

Ejemplo 0 El número de la página que desea raspar. Cualquier valor entero mayor que

1

limit

funcionará 1 y 100 El número de resultados en la página en cuestión. Cualquier valor entero entre

90

(inclusive) funcionará.

{"page": 2, "limit": 90}

Opciones para filtrar y refinar los resultados de búsqueda según varios criterios.

Parámetro
Descripción
Valor predeterminado

context:le permite ver resultados que de otro modo serían excluidos debido a su similitud con otros resultados.

safe_search true Búsqueda segura. Establecer en

false

context: lcl

lcl parámetro. Este parámetro es como un contenedor para parámetros de Google más oscuros, como limitar/ordenar resultados por fecha así como otros filtros, algunos de los cuales dependen de El parámetro permite cambiar entre diferentes pestañas de búsqueda, como imágenes, lugares o videos, para personalizar el tipo de resultados mostrados. Encuentre los valores aceptados Este parámetro es como un contenedor para parámetros de Google más oscuros, como limitar/ordenar resultados por fecha, así como otros filtros, algunos de los cuales dependen del parámetro (p. ej. tbs=app_os:1 El parámetro permite cambiar entre diferentes pestañas de búsqueda, como imágenes, lugares o videos, para personalizar el tipo de resultados mostrados. Encuentre los valores aceptados value . Los valores aceptados son:value aquíarrow-up-right.

-

Otros

Ajustes avanzados adicionales y controles para requisitos especializados.

Parámetro
Descripción
Valor predeterminado

context: nfpr

true desactivará la autocorrección ortográfica

false

Parámetros de contexto

Todos los parámetros de contexto deben añadirse al context array como objetos con key y value pares, p. ej.:

"key": "filter",

La SERP Scraper API es capaz de extraer ya sea un objeto HTML o JSON que contiene resultados de búsqueda de Google, ofreciendo datos estructurados sobre varios elementos de la página de resultados.

chevron-rightgoogle_search salida estructurada de noticiashashtag
circle-info

Solo analizamos resultados de búsqueda de noticias para desktop búsquedas.

Diccionario de datos de salida

Ejemplo HTML

Estructura JSON

La salida estructurada de Google News Search incluye campos como URL, Raspe múltiples páginas usando la misma dirección IP y sesión (conjunto de cookies). Al especificar los números de página en un array JSON con la, resultados, y otros. La tabla a continuación presenta una lista detallada de cada función SERP que analizamos, junto con su descripción y tipo de datos. La tabla también incluye algunos metadatos.

circle-info

El número de elementos y campos para un tipo de resultado específico puede variar dependiendo de la consulta de búsqueda.

Clave
Descripción
Tipo

url

La URL de la página de búsqueda de Google.

string

resultados

Un diccionario que contiene los resultados de la búsqueda.

array

results.main

Una lista de resultados de noticias no pagados con sus respectivos detalles.

array

results.additional

Una lista de artículos en tendencia con sus respectivos detalles.

object

results.total_results_count

El número total de resultados encontrados para la consulta de búsqueda.

array

parse_status_code

El código de estado del trabajo de análisis. Puede ver los códigos de estado del parser descritos aquíarrow-up-right.

integer

created_at

La marca de tiempo cuando se creó el trabajo de scraping.

timestamp

updated_at

La marca de tiempo cuando se finalizó el trabajo de scraping.

timestamp

Raspe múltiples páginas usando la misma dirección IP y sesión (conjunto de cookies). Al especificar los números de página en un array JSON con la

Número de página relativo a la paginación del SERP de Google.

integer

job_id

El ID del trabajo asociado con el trabajo de scraping.

string

status_code

El código de estado del trabajo de scraping. Puede ver los códigos de estado del scraper descritos aquíarrow-up-right.

integer

circle-info

En las secciones siguientes, los fragmentos de código JSON analizados se acortan cuando hay más de un elemento disponible para el tipo de resultado.

Principal

Muestra una lista de resultados de noticias no pagados, proporcionando detalles relevantes para cada artículo.

Clave (results.main)
Descripción
Tipo

url

La URL al artículo completo.

string

desc

Un breve extracto del artículo completo.

string

title

El título del artículo.

string

source

El nombre del sitio web donde se publica el artículo.

string

pos_overall

Indica la posición general del resultado dentro de los resultados principales del SERP de Noticias.

integer

relative_publish_date

Describe cuánto tiempo hace que se publicó el artículo.

string

Adicional

Presenta una lista de artículos en tendencia, acompañada de detalles relevantes.

Clave (results.additional)
Descripción
Tipo

elementos

Una lista de artículos con sus respectivos detalles.

array

items.pos

Un indicador único que denota la posición del artículo en la lista.

integer

items.url

La URL al artículo completo.

string

items.title

El título del artículo.

string

items.source

El nombre del sitio web donde se publica el artículo.

string

items.relative_publish_date

Describe cuánto tiempo hace que se publicó el artículo.

string

pos_overall

Indica la posición general del resultado dentro de los resultados adicionales del SERP de Noticias.

integer

section_title

El nombre de la sección adicional.

string

Última actualización

¿Te fue útil?