Primeros pasos

Aprende a usar Oxylabs Custom Parser. En esta página encontrarás ejemplos completos, consejos y detalles sobre qué ocurre si falla el parsing.

Cómo usar Custom Parser

Ejemplo de escenario

Supongamos que quieres analizar el número total de resultados que devuelve Bing Search con un término de búsqueda test:

Veremos de forma general los tres métodos principales para lograr este objetivo:

Generar analizadores con OxyCopilot

OxyCopilot te permite describir tus necesidades en inglés sencillo para crear automáticamente scrapers y analizadores para un sitio web. Aprende lo básico siguiendo los pasos que se indican a continuación y consulta la documentación de OxyCopilot para más información.

1

Introduce la(s) URL(s)

Haz clic en el botón de OxyCopilot en la parte superior izquierda e introduce hasta 3 URL del mismo tipo de página. Usemos esta URL de Bing Search: https://www.bing.com/search?q=test.

También puedes configurar el scraper manualmente rellenando los Sitio web, campos de Scraper, y URL en la parte superior, y ajustando parámetros adicionales como la renderización de JavaScript en el menú de la izquierda.

2

Configurar los parámetros del scraper

A continuación, especifica los parámetros del scraper, las instrucciones del navegador y activa la renderización de JavaScript si tu sitio objetivo lo requiere.

Para Bing Search, activa la renderización de JavaScript y luego haz clic en Siguiente.

3

Escribe el prompt

Explica los datos que quieres extraer de una página. Asegúrate de ser descriptivo y proporcionar la información más importante. Puedes encontrar ejemplos de prompts para sitios web populares en nuestra biblioteca de prompts de OxyCopilot.

Pega el siguiente prompt para extraer el número total de resultados de las páginas de Bing Search:

Haz clic en el Generar instrucciones botón para enviar tu prompt.

4

Revisar los datos analizados y las instrucciones

Una vez que OxyCopilot termine, verás la siguiente ventana donde los datos analizados están en el lado derecho:

Si quieres hacer algún ajuste, puedes hacerlo aquí. Modifica la(s) URL, refina el prompt, activa la renderización de JavaScript o edita el esquema de análisis para adaptarlo a tus necesidades. Cuando actualices cualquier campo en esta ventana, puedes volver a ejecutar la solicitud seleccionando Iniciar nueva solicitud.

También puedes ver y editar directamente las instrucciones de análisis aquí:

Una vez que estés conforme con el resultado, Cargar instrucciones para continuar.

5

Guardar el analizador como un preset

Puedes guardar fácilmente tus instrucciones de análisis como un preseteo del analizador. Esto te permite reutilizar el preset en OxyCopilot y con tus solicitudes de API.

En el Web Scraper API Playground, opcionalmente puedes elegir el usuario para el que guardar el preset. Una vez que esté todo listo, simplemente haz clic en Guardar:

Aparecerá una ventana emergente pidiéndote que nombres el preset y añadas una descripción opcional:

6

Usar el preset con solicitudes de API

Para usar un preset con tus solicitudes de Web Scraper API, configura parse a true y especifica el nombre del preset con el parser_preset parámetro.

Endpoint: POST https://data.oxylabs.io/v1/queries

Al ejecutar la solicitud se obtendrá la siguiente salida JSON:

Uso avanzado

Generar analizadores mediante API

En lugar de usar OxyCopilot en el playground, puedes enviar prompts directamente a Web Scraper API y generar analizadores. Consulta la documentación sobre generación de instrucciones de análisis mediante API para aprender más.

Endpoint: POST https://data.oxylabs.io/v1/parsers/generate-instructions/prompt

Salida

Guardar presets del analizador mediante API

Web Scraper API te permite guardar instrucciones de análisis como presets reutilizables. Consulta la Presets de analizador documentación para encontrar una lista de acciones disponibles y ejemplos de código completos.

Endpoint: POST https://data.oxylabs.io/v1/parsers/presets

Salida

Escribir instrucciones manualmente

Para usar Custom Parser manualmente, incluye un conjunto de parsing_instructions al crear un trabajo. Puedes usar selectores CSS y XPath para apuntar a elementos en el DOM.

Sigue el ejemplo paso a paso a continuación para aprender lo básico, y luego explora nuestra guía detallada sobre escribir instrucciones manualmente para técnicas avanzadas y documentación detallada.

Tomemos el escenario de Bing Search como ejemplo. Los parámetros del trabajo se verían así:

Paso 1. Debes proporcionar el "parse": true parámetro.

Paso 2. Las instrucciones de análisis deben describirse en "parsing_instructions" .

Las instrucciones de análisis de ejemplo anteriores especifican que el objetivo es analizar el número de resultados de búsqueda del documento extraído y poner el resultado en el campo number_of_results . Las instrucciones sobre cómo analizar el campo definiendo una “pipeline” se dan como:

La pipeline describe una lista de funciones de procesamiento de datos que se ejecutarán. Las funciones se ejecutan en el orden en que aparecen en la lista y toman la salida de la función anterior como entrada.

En la pipeline de ejemplo anterior, se usa la función xpath_one (lista completa de funciones disponibles). Permite procesar un documento HTML usando expresiones XPath y funciones XSLT. Como argumento de la función, especifica la ruta exacta donde se puede encontrar el elemento objetivo: .//span[@class='sb_count']. También puedes indicar al analizador que seleccione el text() encontrado en el elemento objetivo.

El resultado analizado del trabajo de ejemplo anterior debería verse así:

Custom Parser no solo ofrece extracción de texto de un HTML extraído, sino que también puede ejecutar funciones básicas de procesamiento de datos.

Por ejemplo, las instrucciones de análisis descritas anteriormente extraen number_of_results como texto con palabras clave adicionales que quizá no necesites necesariamente. Si quieres obtener el número de resultados para la query=test en el tipo de dato numérico, puedes reutilizar las mismas instrucciones de análisis y añadir la amount_from_string función al pipeline existente:

El resultado analizado del trabajo de ejemplo anterior debería verse así:

Qué ocurre si falla el análisis al usar Custom Parser

Si Custom Parser no puede procesar las instrucciones de análisis definidas por el cliente, devolveremos el 12005 código de estado (analizado con advertencias).

Se te cobrará por tales resultados:

Si Custom Parser encuentra una excepción y falla durante la operación de análisis, puede devolver estos códigos de estado: 12002, 12006, 12007. No se te cobrará por estos errores inesperados.

Códigos de estado

Consulta nuestros códigos de estado descritos aquí.

Última actualización

¿Te fue útil?