Documentation has been updated: see help center and changelog in one place.

AI-Scraper

Aprende cómo obtener datos web desde una sola URL para tus flujos de trabajo de IA usando AI Studio.

Resumen

AI-Scraper es una herramienta de scraping que extrae datos de una sola página web. Identifica y analiza la información relevante según un prompt en lenguaje natural, luego entrega los resultados en JSON (para automatización y APIs) o Markdown formato (mejor para salidas legibles y flujos de trabajo con IA).

Este AI scraper elimina la necesidad de selectores CSS/XPath o parsers personalizados, por lo que se integra sin problemas con diversas canalizaciones de automatización. Generación automática de esquema y formatos de salida flexibles brindan a los usuarios una forma sencilla de extraer datos limpios y estructurados sin tener que mantener nunca la lógica de parseo.

Puedes previsualizar la herramienta aquí e integrarla en tus flujos de trabajo mediante nuestros SDKs de Python/JavaScript, el servidor MCP o una de nuestras integraciones de terceros.

Funciones clave

  • Extracción basada en prompts en lenguaje natural – Define tus necesidades en inglés sencillo, y el agente de scraping recuperará la información relevante.

  • Múltiples formatos de salida – Elige JSON para flujos de trabajo estructurados o Markdown para resultados legibles por humanos y flujos de trabajo con IA.

  • Generación automática de esquema – Genera un esquema automáticamente a partir de un prompt o defínelo manualmente para un parseo JSON preciso.

  • Funciona en cualquier página pública – Extrae de e-commerce, noticias, blogs o cualquier otra fuente accesible.

Cómo funciona

Para scrapear una página con AI-Scraper, sigue estos pasos:

  1. Proporciona la URL de la página que deseas scrapear.

  2. Describe los datos a extraer en lenguaje natural (por ejemplo, “Obtener todos los nombres de productos y precios”).

  3. Selecciona el formato de salida – JSON estructurado o Markdown.

  4. (Opcional) Define un esquema – Deja que AI-Scraper genere uno automáticamente, o proporciona tu propio esquema OpenAPI para la estructura exacta que deseas.

Instalación

Para comenzar, asegúrate de tener acceso a una clave de API de AI Studio (o obtén una prueba gratuita con 1000 créditos) y Python v3.10 o superior instalado. Puedes instalar el oxylabs-ai-studio paquete usando pip:

Ejemplos de código (Python)

Los siguientes ejemplos muestran cómo usar AiScraper para extraer datos de una página de ejemplo.

Aprende más sobre AI-Scraper y el SDK de Python de Oxylabs AI Studio en nuestro repositorio PyPI. También puedes consultar nuestro AI Studio JavaScript SDK guía para usuarios de JS.

Parámetros de la solicitud

Parámetro
Descripción
Valor predeterminado

url*

URL objetivo a scrapear

output_format

Formato de salida (json, markdown)

markdown

schema

Esquema OpenAPI para extracción estructurada (obligatorio para JSON)

render_javascript

Habilitar renderizado de JavaScript

False

geo_location

Ubicación del proxy en formato ISO2

* – parámetros obligatorios

Muestras de salida

AI-Scraper puede devolver salidas parseadas y listas para usar que son fáciles de integrar en tus aplicaciones.

Así se ve su salida JSON:

Alternativamente, puedes configurar output_format a markdown para recibir resultados en formato Markdown en lugar de JSON.

Casos de uso prácticos

AI-Scraper puede aplicarse a una amplia variedad de tareas de recopilación de datos:

  1. Extraer detalles de productos – Recolectar nombres de productos, descripciones y precios de sitios de e-commerce.

  2. Parsear artículos de noticias – Recuperar títulos de artículos, fechas, autores y el texto del cuerpo.

  3. Scrapear páginas de precios – Recopilar información de precios estructurada para investigación de competidores o de mercado.

  4. Extraer ofertas de empleo – Capturar títulos de trabajo, ubicaciones, salarios y fechas de publicación desde portales de reclutamiento.

Última actualización

¿Te fue útil?