AI-Crawler
Aprende a rastrear un sitio web comenzando desde una URL, encontrar páginas relevantes y extraer datos, todo guiado por tu prompt en lenguaje natural.
Resumen
AI-Crawler es una aplicación de extracción de datos que utiliza algoritmos avanzados de IA para rastrear un dominio dado. Identifica páginas relevantes basándose en un prompt en lenguaje natural y extrae datos estructurados JSON o Markdown de salida.
Esta herramienta de bajo código está diseñada para simplificar tareas complejas de adquisición de datos, permitiendo que desarrolladores y científicos de datos se concentren en el análisis en lugar de construir y mantener rastreadores web personalizados. El rastreador web con IA ofrece filtrado avanzado, análisis basado en esquemas e integración fluida con diversas canalizaciones de automatización.
Puedes previsualizar la herramienta aquí e integrarla en tus flujos de trabajo mediante nuestros SDKs de Python/JavaScript, el servidor MCP o una de nuestras integraciones de terceros.
Funciones clave
Inicia un rastreo desde cualquier URL dada: Comienza tu extracción de datos desde cualquier dirección web válida usando el AI Crawler como punto de partida.
Prompt en lenguaje natural: Define tus necesidades de datos en inglés claro, y el agente de rastreo interpretará el prompt para encontrar contenido relevante.
Selección de URL asistida por IA: El rastreador web con IA explora el sitio de manera inteligente, identificando y priorizando las páginas más alineadas con tu prompt.
Múltiples formatos de salida: Elige entre salida JSON estructurada o Markdown para una integración fluida en automatizaciones o flujos de trabajo de IA.
Análisis basado en esquemas: Para salida JSON, puedes definir un esquema en lenguaje natural para asegurar que los datos extraídos estén estructurados según tu aplicación.
Usage
Para comenzar con el AI Crawler, sigue este proceso de cuatro pasos:
Proporciona una URL de inicio del sitio web que deseas que el rastreador explore.
Describe el contenido que deseas recuperar usando un prompt en lenguaje natural para el agente de rastreo.
Selecciona el formato de salida. Elige entre JSON estructurado o Markdown.
Si usas salida JSON, proporciona un esquema para guiar al rastreador web con IA en el análisis y la estructuración de los datos extraídos.
Instalación
Para empezar, asegúrate de tener acceso a una clave de API (o obtén una prueba gratuita con 1,000 credits) y Python 3.10+ instalado. Puedes instalar el oxylabs-ai-studio paquete usando pip:
Ejemplos de código (Python)
Los siguientes ejemplos muestran cómo usar el AiCrawler para realizar tareas comunes de rastreo.
Aprende más sobre AI-Crawler y el SDK de Python de Oxylabs AI Studio en nuestro repositorio PyPI. También puedes consultar nuestro SDK de JavaScript de AI Studio guía para usuarios de JS.
Parámetros de la solicitud
url*
URL inicial para rastrear
–
user_prompt*
Prompt en lenguaje natural para guiar la extracción
–
output_format
Formato de salida (json, markdown)
markdown
schema
Esquema OpenAPI para extracción estructurada (obligatorio para JSON)
–
render_javascript
Habilitar renderizado de JavaScript
False
return_sources_limit
Número máximo de fuentes a devolver
25
geo_location
Ubicación del proxy en formato ISO2
–
* – parámetros obligatorios
Ejemplos de salida
AI-Crawler puede devolver salida analizada y lista para usar que es fácil de integrar en tus aplicaciones.
Así es como se ve su salida JSON:
Alternativamente, puedes usar output_format=”markdown” para recibir resultados en Markdown en lugar de JSON analizado.
Casos de uso prácticos
AI-Crawler es una herramienta versátil para una amplia gama de aplicaciones, incluyendo:
Encontrar páginas de términos de servicio: Localiza rápidamente páginas legales y de políticas en un dominio.
Recopilar páginas de precios: Recopila detalles de precios para análisis de competidores o investigación de mercado.
Recuperar todas las páginas “Acerca de”: Encuentra y extrae automáticamente información de la empresa de una lista de sitios web.
Listar artículos de noticias relacionados con IA: Rastrea un sitio de noticias para recopilar y archivar artículos sobre un tema específico.
Última actualización
¿Te fue útil?

