circle-check
Documentation has been updated: see help center and changelog in one place.

Comenzando

Aprende a usar Oxylabs Custom Parser. En esta página encontrarás ejemplos completos, consejos y detalles sobre qué ocurre si el análisis falla.

Cómo usar el Analizador Personalizado

Ejemplo de escenario

Supongamos que desea extraer el número de resultados totales que Bing Search arroja con un término de búsqueda test:

Revisaremos los tres métodos principales para lograr este objetivo:

Generar analizadores con OxyCopilot

OxyCopilot le permite describir sus necesidades en inglés sencillo para crear automáticamente scrapers y analizadores para un sitio web. Aprenda lo básico siguiendo los pasos a continuación y consulte documentación de OxyCopilot para más información.

circle-check
1

Ingrese la(s) URL(s)

Haga clic en el botón OxyCopilot en la parte superior izquierda e ingrese hasta 3 URLs del mismo tipo de página. Usemos esta URL de Bing Search: https://www.bing.com/search?q=test.

circle-info

También puede configurar el scraper manualmente completando los Sitio web, campos Scraper, y URL en la parte superior y ajustando parámetros adicionales como el renderizado de JavaScript en el menú lateral izquierdo.

2

Configurar parámetros del scraper

A continuación, especifique los parámetros del scraper, las instrucciones del navegador y habilite el renderizado de JavaScript si su sitio objetivo lo requiere.

Para Bing Search, habilite el renderizado de JavaScript y luego haga clic Siguiente.

3

Escribir el prompt

Explique los datos que desea extraer de una página. Asegúrese de ser descriptivo y proporcionar la información más importante. Puede encontrar ejemplos de prompts para sitios populares en nuestra biblioteca de prompts de OxyCopilotarrow-up-right.

Pegue el siguiente prompt para extraer el número total de resultados de las páginas de Bing Search:

Haga clic en el Generar instrucciones botón para enviar su prompt.

4

Revisar datos e instrucciones parseadas

Una vez que OxyCopilot termine, verá la siguiente ventana donde los datos parseados están en el lado derecho:

Si desea hacer ajustes, puede hacerlo aquí. Modifique la(s) URL(s), refine el prompt, habilite el renderizado de Javascript o editar el esquema de análisis para adaptarlo a sus necesidades. Cuando actualice cualquier campo en esta ventana, puede volver a ejecutar la solicitud seleccionando Iniciar nueva solicitud.

También puede ver y editar directamente las instrucciones de análisis aquí:

Una vez que esté satisfecho con el resultado, Cargar instrucciones para continuar.

5

Guardar el analizador como un preset

Puede guardar fácilmente sus instrucciones de análisis como un preset del parser. Esto le permite reutilizar el preset en OxyCopilot y con sus solicitudes API.

En el Web Scraper API Playground, opcionalmente puede elegir el usuario para el cual guardar el preset. Una vez listo, simplemente haga clic en Guardar:

Aparecerá un pop-up solicitándole que nombre el preset y agregue una descripción opcional:

6

Usar el preset con solicitudes API

Para usar un preset con sus solicitudes Web Scraper API, establezca parse to true y especifique el nombre del preset con el parser_preset hará que Google cargue más aplicaciones. Este parámetro solo es útil si se usa junto con el

Endpoint: POST https://data.oxylabs.io/v1/queries

Ejecutar la solicitud proporcionará la siguiente salida JSON:

Uso avanzado

Generar analizadores mediante API

En lugar de usar OxyCopilot en el playground, puede enviar prompts directamente a Web Scraper API y generar analizadores. Vea la página de Generación de instrucciones de análisis mediante API de documentación para obtener más información.

circle-check

Endpoint: POST https://data.oxylabs.io/v1/parsers/generate-instructions/prompt

chevron-rightSalidahashtag

Guardar presets de analizadores vía API

Web Scraper API le permite guardar instrucciones de análisis como presets de analizadores reutilizables. Consulte la documentación de Parser Presets para encontrar una lista de acciones disponibles y ejemplos de código completos.

Endpoint: POST https://data.oxylabs.io/v1/parsers/presets

chevron-rightSalidahashtag

Escribir instrucciones manualmente

Para usar Custom Parser manualmente, incluya un conjunto de parsing_instructions al crear un job. Puede usar selectores CSS y XPath para apuntar a elementos en el DOM.

Siga el ejemplo paso a paso a continuación para aprender lo básico, luego explore nuestra guía detallada sobre escribir instrucciones manualmente para técnicas avanzadas y documentación detallada.

Tomemos el escenario de Bing Search como ejemplo. Los parámetros del job se verían de la siguiente manera:

Paso 1. Debe proporcionar el "parse": true hará que Google cargue más aplicaciones. Este parámetro solo es útil si se usa junto con el

Paso 2. Las instrucciones de análisis deben describirse en el "parsing_instructions" campo.

Las instrucciones de ejemplo anteriores especifican que el objetivo es extraer el número de resultados de búsqueda del documento scrapeado y colocar el resultado en el number_of_results campo. Las instrucciones sobre cómo analizar el campo definiendo una “pipeline” se dan como:

La pipeline describe una lista de funciones de procesamiento de datos que se ejecutarán. Las funciones se ejecutan en el orden en que aparecen en la lista y toman la salida de la función anterior como entrada.

En la pipeline de ejemplo anterior, la xpath_one función (lista completa de funciones disponibles) se utiliza. Le permite procesar un documento HTML usando expresiones XPath y funciones XSLT. Como argumento de la función, especifique la ruta exacta donde se puede encontrar el elemento objetivo: .//span[@class='sb_count']. También puede indicar al analizador que seleccione el text() encontrado en el elemento objetivo.

El resultado parseado del job de ejemplo anterior debería verse así:

Custom Parser no solo ofrece extracción de texto desde un HTML scrapeado, sino que también puede ejecutar funciones básicas de procesamiento de datos.

Por ejemplo, las instrucciones de análisis descritas previamente extraen number_of_results como un texto con palabras clave adicionales que puede que no necesite necesariamente. Si desea obtener el número de resultados para la query=test dado en el tipo de dato numérico, puede reutilizar las mismas instrucciones de análisis y agregar la amount_from_string función a la pipeline existente:

El resultado parseado del job de ejemplo anterior debería verse así:

Qué sucede si el análisis falla al usar Custom Parser

Si Custom Parser no puede procesar las instrucciones de análisis definidas por el cliente, devolveremos el 12005 código de estado (parseado con advertencias).

Se le cobrará por tales resultados:

Si Custom Parser encuentra una excepción y se detiene durante la operación de análisis, puede devolver estos códigos de estado: 12002, 12006, 12007. No se le cobrará por estos errores inesperados.

Códigos de estado

Consulte nuestros códigos de estado descritos aquí.

Última actualización

¿Te fue útil?