AI-Crawler
Aprende a rastrear un sitio web a partir de una URL, encontrar páginas relevantes y extraer datos, todo guiado por tu prompt en lenguaje natural.
Resumen
AI-Crawler es una app de extracción de datos que usa algoritmos avanzados de IA para rastrear un dominio dado. Identifica páginas relevantes según una indicación en lenguaje natural y extrae JSON o Markdown datos de salida estructurados.
Esta herramienta de bajo código está diseñada para simplificar tareas complejas de adquisición de datos, permitiendo a los desarrolladores y científicos de datos centrarse en el análisis en lugar de crear y mantener rastreadores web personalizados. El rastreador web de IA ofrece filtrado avanzado, análisis basado en esquema e integración fluida con varias canalizaciones de automatización.
Puedes previsualizar la herramienta aquí e integrarla en tus flujos de trabajo mediante nuestros SDKs de Python/JavaScript, el servidor MCP o una de nuestras integraciones de terceros.
Características principales
Inicia un rastreo desde cualquier URL dada: Comienza la extracción de datos desde cualquier dirección web válida usando AI Crawler como punto de partida.
Indicación en lenguaje natural: Define tus necesidades de datos en inglés sencillo, y el agente de rastreo interpretará la indicación para encontrar contenido relevante.
Selección de URL asistida por IA: El rastreador web de IA explora el sitio de forma inteligente, identificando y priorizando las páginas que más se alinean con tu indicación.
Varios formatos de salida: Elige entre JSON estructurado o salida Markdown para una integración fluida en flujos de trabajo de automatización o IA.
Análisis basado en esquema: Para la salida JSON, puedes definir un esquema de análisis en lenguaje natural para asegurar que los datos extraídos estén estructurados para adaptarse a tu aplicación.
Uso
Para empezar con AI Crawler, sigue este proceso de cuatro pasos:
Proporciona una URL inicial del sitio web que quieres que el rastreador web explore.
Describe el contenido que quieres recuperar usando una indicación en lenguaje natural para el agente de rastreo.
Selecciona el formato de salida. Elige entre JSON estructurado o Markdown.
Si usas salida JSON, proporciona un esquema para guiar al rastreador web de IA en el análisis y la estructuración de los datos extraídos.
Instalación
Para comenzar, asegúrate de tener acceso a una clave de API (o obtén una prueba gratuita con 1,000 credits) y Python 3.10+ instalado. Puedes instalar el oxylabs-ai-studio paquete usando pip:
Ejemplos de código (Python)
Los siguientes ejemplos muestran cómo usar AiCrawler para realizar tareas comunes de rastreo.
Obtén más información sobre AI-Crawler y el SDK de Python de Oxylabs AI Studio en nuestro repositorio de PyPI. También puedes consultar nuestra guía del SDK de JavaScript de AI Studio para usuarios de JS.
Parámetros de la solicitud
url
URL inicial para rastrear
–
user_prompt
Indicación en lenguaje natural para guiar la extracción
–
output_format
Formato de salida (json, markdown)
markdown
schema
Esquema OpenAPI para extracción estructurada (obligatorio para JSON)
–
render_javascript
Habilitar renderizado de JavaScript
False
return_sources_limit
Número máximo de fuentes a devolver
25
geo_location
Ubicación del proxy en formato ISO2
–
– parámetros obligatorios
Ejemplos de salida
AI-Crawler puede devolver una salida analizada y lista para usar, fácil de integrar en tus aplicaciones.
Así es como se ve su salida JSON:
Alternativamente, puedes usar output_format=”markdown” para recibir resultados en Markdown en lugar de JSON analizado.
Casos de uso prácticos
AI-Crawler es una herramienta versátil para una amplia gama de aplicaciones, incluyendo:
Encontrar páginas de términos de servicio: Localiza rápidamente páginas legales y de políticas en un dominio.
Recopilar páginas de precios: Reúne detalles de precios para análisis de competencia o investigación de mercado.
Recuperar todas las páginas “About”: Encuentra y extrae automáticamente información de la empresa de una lista de sitios web.
Listar artículos de noticias relacionados con IA: Extrae un sitio de noticias para recopilar y archivar artículos sobre un tema específico.
Última actualización
¿Te fue útil?

