Documentation has been updated: see help center and changelog in one place.

Realtime

Integración Realtime para la Web Scraper API de Oxylabs. Mantenga la conexión HTTPS abierta desde el envío del trabajo hasta que se devuelvan resultados o un error, usando payloads en formato JSON.

Realtime es un método de integración síncrono. Se requiere mantener la conexión abierta hasta que el trabajo termine correctamente o devuelva un error.

Envío de trabajo

Endpoint

El endpoint Realtime API para el envío de trabajos es:

POST https://realtime.oxylabs.io/v1/queries

Entrada

Proporciona los parámetros del trabajo en una carga JSON como se muestra en los ejemplos a continuación. Los ejemplos en Python y PHP incluyen comentarios para mayor claridad.

curl --user "USERNAME:PASSWORD" \
'https://realtime.oxylabs.io/v1/queries' \
-H "Content-Type: application/json" \
-d '{"source": "universal", "url": "https://example.com", "geo_location": "United States"}'

Salida

Realtime API admite estos tipos de resultado en la salida:

  • HTML: El contenido HTML sin procesar extraído de la página web objetivo;

  • JSON: Datos estructurados analizados desde el contenido HTML, formateados en JSON;

  • PNG: Captura de pantalla en PNG codificada en Base64 de la página renderizada.

  • XHR: Solicitudes XHR realizadas mientras se carga la página.

  • Markdown: Markdown de una página web.

También puedes recuperar múltiples tipos de resultados en una sola respuesta de la API.

Esta tabla explica los tipos de resultado predeterminados y otros disponibles según los parámetros incluidos en la carga útil de la solicitud API.

Parámetro render
Parámetro parse
Salida por defecto
Salida disponible

x

x

html

html

html

x

html

html

png

x

png

html, png

x

true

json

html, json

html

true

json

html, json

png

true

png

html, json, png

Realtime API siempre devuelve la salida predeterminada. Para obtener otras salidas disponibles del mismo trabajo realtime, usa endpoints Push-Pull con ese ID de trabajo. Ten en cuenta que el ID de trabajo puede encontrarse en las cabeceras de cada respuesta realtime así como dentro del cuerpo de la respuesta.

Ejemplo de salida:

Última actualización

¿Te fue útil?