For the complete documentation index, see llms.txt. This page is also available as Markdown.

OxyCopilot

Automatiza el scraping con OxyCopilot. Aprende a generar cargas útiles de Web Scraper API, parsers personalizados e instrucciones del navegador usando simples indicaciones en lenguaje natural.

OxyCopilot es una función gratuita Web Scraper API que hace que la incorporación sea más fácil y ayuda a los usuarios a encontrar soluciones eficaces para casos de uso complejos, todo sin necesidad de conocimientos de programación. OxyCopilot actualmente incluye tres funciones separadas:

  • Generador de scraper

  • Custom Parser generador

  • Generador de instrucciones de navegador

Generador de scraper

OxyCopilot te ayuda a configurar un scraper (y a formar el cuerpo de la solicitud) para Web Scraper API sin necesidad de entender la documentación ni la lógica de los campos.

Cómo funciona

Paso 1: Proporciona una URL y un prompt

  • URL: Proporciona la URL que quieres extraer.

  • Prompt: Describe tus requisitos (por ejemplo, localización, renderizado con JS, etc.).

Paso 2: Análisis

Tienes tres opciones para gestionar el análisis:

  1. Custom Parser: Selecciona "Agregar instrucciones de análisis" para crear tu propia lógica de análisis usando el Custom Parser builder.

  2. Parser dedicado: Si la URL es de un sitio web para el que proporcionamos un parser dedicado y quieres usarlo, selecciona "Continuar con el parser dedicado".

  3. Sin análisis: Elige continuar sin análisis si no necesitas datos estructurados.

Si no tenemos un parser dedicado
Si tenemos un parser dedicado

Paso 3: Revisa la solicitud

Según tu prompt, OxyCopilot rellenará previamente los parámetros necesarios en el Web Scraper API Playground. Verás el código de solicitud específico y los parámetros para tu caso de uso, y podrás ajustar los parámetros si es necesario.

Paso 4: Envía la solicitud y copia

Si todo se ve bien, envía la solicitud para ver cómo se ve la salida y comprobar si funciona como esperas. Luego, copia el código de la solicitud para usarlo en tus tareas de extracción posteriores con Web Scraper API.

Ejemplo

URL

Prompt

Parámetros generados por IA (JSON)

Códigos de solicitud generados por IA

Custom Parser builder

Aprovecha la función Custom Parser con OxyCopilot para crear un parser sin necesidad de escribir código ni analizar manualmente la estructura del sitio web.

Cómo funciona

Paso 1: Proporciona URL(s) y prompt

  • URL(s): Puedes proporcionar hasta 3 URLs para las que quieres generar instrucciones de análisis. OxyCopilot usa el HTML de las URL proporcionadas para determinar la mejor lógica para extraer los campos requeridos.

Cuantas más URLs proporciones, más robustas serán las instrucciones de análisis, ya que OxyCopilot identifica patrones comunes entre páginas similares. Ten en cuenta que URLs adicionales pueden aumentar el tiempo de espera para obtener resultados.

  • Prompt: El prompt es el componente clave para construir un esquema en lenguaje natural, que sirve como base para generar las instrucciones de análisis reales. El prompt debe describir claramente los campos que necesitan ser analizados.

Paso 2 [Opcional]: Ajustar el esquema de análisis

Este paso te permite afinar el esquema de análisis para adaptarlo mejor a tus necesidades o solucionar cualquier problema.

Resumen del esquema de análisis

Esta tabla visualiza la entrada utilizada por la IA para generar instrucciones de análisis. El esquema define qué campos necesitan ser analizados y consiste en varios tipos de objeto (explicados en la tabla a continuación).

Cada elemento del esquema debe tener:

  • Nombre: Esto se usará como la clave del objeto en las instrucciones de análisis y será visible en los datos analizados.

  • Descripción (opcional pero recomendado): Ayuda a mejorar la precisión del análisis.

Ajustes del esquema

  • Reordenar elementos: Arrastra y suelta elementos usando los puntos del lado izquierdo para cambiar su orden (solo se pueden mover elementos dentro del mismo nivel de anidación).

  • Editar elementos: Haz clic en el icono de edición para modificar cualquier campo.

  • Eliminar elementos: Puedes eliminar cualquier elemento en el nivel superior.

  • Añadir nuevos elementos: Añade nuevos elementos al nivel superior.

Una vez que actualices el esquema, haz clic en el "Refresh output" botón para regenerar las instrucciones y previsualizar los datos analizados.

Explicaciones de tipos de objeto

Tipo de objeto
Descripción
Ejemplo de datos analizados

Cadena

Una sola salida de texto

“title”: “Ejemplo de título de producto”

Número

Un solo número

“price”: 9.99

Array de cadenas

Una lista de salidas de texto

“products”: [“product 1”, “product 2”, “product 3”]

Array de números

Una lista de números

“pages”: [1, 2, 3]

Array de objetos

Una lista de objetos/elementos, cada uno con sus propios objetos dentro (_items bloque en las instrucciones de análisis)

Trabajar con un array de objetos

  1. Selecciona "Array of objects": Esta opción añade un objeto hijo y un botón.

  1. Completar los nombres de los objetos: Para guardar el elemento en el esquema, debes completar los nombres de los objetos padre e hijo. Una vez hecho, la marca de verificación se volverá verde.

  1. Requisito del objeto hijo: Un "Array of objects" debe tener al menos un hijo.

Probar las instrucciones

De forma predeterminada, los datos analizados se basan en la primera URL proporcionada en Paso 1. También puedes proporcionar una URL diferente para probar las instrucciones de análisis:

Paso 3: Copia/guarda las instrucciones e intégralas en trabajos de extracción

Una vez que las instrucciones sean satisfactorias:

  • Use el "Copy" botón para copiar las instrucciones y pegarlas en el código de tu scraper.

  • Alternativamente, guarda las instrucciones en tu sesión de Web Scraper API Playground, ajusta otros parámetros de la solicitud, prueba y luego copia el código completo de la solicitud en tu lenguaje de programación preferido.

Ejemplo

URL

Prompt

Esquema de análisis

Tipo de objeto
Nombre*
Descripción

Cadena

product_title

Título del producto

Número

price

Precio del producto

Array de cadenas

related_products

Títulos de productos relacionados debajo de la información principal del producto

Instrucciones de análisis

Datos analizados

Generación de instrucciones de análisis mediante una API

Si quieres generar un gran número de conjuntos diferentes de instrucciones de análisis para cubrir la variedad de sitios web con los que trabajas, puedes crear instrucciones de análisis mediante una API; consulta API generadora de instrucciones de análisis para ver cómo se hace.

Generador de instrucciones de navegador

Puedes usar OxyCopilot para crear scripts complejos de interacción con páginas sin analizar la estructura del sitio ni escribir manualmente la configuración para tus Instrucciones del navegador.

Cómo funciona

Paso 1: Proporciona una URL y un prompt

  • URL: Proporciona una sola URL para generar instrucciones de navegador. OxyCopilot utiliza el HTML de la URL proporcionada para determinar cómo programar las interacciones de la página web que necesitas.

  • Prompt: El prompt es crucial para construir las instrucciones del navegador. Indica claramente qué acciones te gustaría que se realizaran en la página web una vez abierta (por ejemplo, "Desplázate hasta la parte inferior, espera a que cargue el botón 'next page', haz clic en el botón 'next page'").

Paso 2 [Opcional]: Ajustar las instrucciones del navegador

Este paso te permite afinar la secuencia de instrucciones del navegador para adaptarla mejor a tus necesidades o solucionar cualquier problema.

Resumen de instrucciones del navegador

Una vez que OxyCopilot termine de procesar tu entrada, mostrará la secuencia de instrucciones del navegador que ha creado.

Puedes ajustar la secuencia editando, añadiendo o eliminando pasos.

Paso 3: Copia/guarda las instrucciones e intégralas en trabajos de extracción

Una vez que las instrucciones sean satisfactorias, puedes guardarlas en tu sesión de Web Scraper API Playground, ajustar otros parámetros de la solicitud, probar y luego copiar el código completo de la solicitud en tu lenguaje de programación preferido.

Última actualización

¿Te fue útil?