For the complete documentation index, see llms.txt. This page is also available as Markdown.

AI-Crawler

Aprende a rastrear un sitio web a partir de una URL, encontrar páginas relevantes y extraer datos, todo guiado por tu prompt en lenguaje natural.

Resumen

AI-Crawler es una app de extracción de datos que usa algoritmos avanzados de IA para rastrear un dominio dado. Identifica páginas relevantes según una indicación en lenguaje natural y extrae JSON o Markdown datos de salida estructurados.

Esta herramienta de bajo código está diseñada para simplificar tareas complejas de adquisición de datos, permitiendo a los desarrolladores y científicos de datos centrarse en el análisis en lugar de crear y mantener rastreadores web personalizados. El rastreador web de IA ofrece filtrado avanzado, análisis basado en esquema e integración fluida con varias canalizaciones de automatización.

Puedes previsualizar la herramienta aquí e integrarla en tus flujos de trabajo mediante nuestros SDKs de Python/JavaScript, el servidor MCP o una de nuestras integraciones de terceros.

Características principales

  • Inicia un rastreo desde cualquier URL dada: Comienza la extracción de datos desde cualquier dirección web válida usando AI Crawler como punto de partida.

  • Indicación en lenguaje natural: Define tus necesidades de datos en inglés sencillo, y el agente de rastreo interpretará la indicación para encontrar contenido relevante.

  • Selección de URL asistida por IA: El rastreador web de IA explora el sitio de forma inteligente, identificando y priorizando las páginas que más se alinean con tu indicación.

  • Varios formatos de salida: Elige entre JSON estructurado o salida Markdown para una integración fluida en flujos de trabajo de automatización o IA.

  • Análisis basado en esquema: Para la salida JSON, puedes definir un esquema de análisis en lenguaje natural para asegurar que los datos extraídos estén estructurados para adaptarse a tu aplicación.

Uso

Para empezar con AI Crawler, sigue este proceso de cuatro pasos:

  1. Proporciona una URL inicial del sitio web que quieres que el rastreador web explore.

  2. Describe el contenido que quieres recuperar usando una indicación en lenguaje natural para el agente de rastreo.

  3. Selecciona el formato de salida. Elige entre JSON estructurado o Markdown.

  4. Si usas salida JSON, proporciona un esquema para guiar al rastreador web de IA en el análisis y la estructuración de los datos extraídos.

Instalación

Para comenzar, asegúrate de tener acceso a una clave de API (o obtén una prueba gratuita con 1,000 credits) y Python 3.10+ instalado. Puedes instalar el oxylabs-ai-studio paquete usando pip:

Ejemplos de código (Python)

Los siguientes ejemplos muestran cómo usar AiCrawler para realizar tareas comunes de rastreo.

Obtén más información sobre AI-Crawler y el SDK de Python de Oxylabs AI Studio en nuestro repositorio de PyPI. También puedes consultar nuestra guía del SDK de JavaScript de AI Studio para usuarios de JS.

Parámetros de la solicitud

Parámetro
Descripción
Valor predeterminado

url

URL inicial para rastrear

user_prompt

Indicación en lenguaje natural para guiar la extracción

output_format

Formato de salida (json, markdown)

markdown

schema

Esquema OpenAPI para extracción estructurada (obligatorio para JSON)

render_javascript

Habilitar renderizado de JavaScript

False

return_sources_limit

Número máximo de fuentes a devolver

25

geo_location

Ubicación del proxy en formato ISO2

– parámetros obligatorios

Ejemplos de salida

AI-Crawler puede devolver una salida analizada y lista para usar, fácil de integrar en tus aplicaciones.

Así es como se ve su salida JSON:

Alternativamente, puedes usar output_format=”markdown” para recibir resultados en Markdown en lugar de JSON analizado.

Casos de uso prácticos

AI-Crawler es una herramienta versátil para una amplia gama de aplicaciones, incluyendo:

  1. Encontrar páginas de términos de servicio: Localiza rápidamente páginas legales y de políticas en un dominio.

  2. Recopilar páginas de precios: Reúne detalles de precios para análisis de competencia o investigación de mercado.

  3. Recuperar todas las páginas “About”: Encuentra y extrae automáticamente información de la empresa de una lista de sitios web.

  4. Listar artículos de noticias relacionados con IA: Extrae un sitio de noticias para recopilar y archivar artículos sobre un tema específico.

Última actualización

¿Te fue útil?