# AI-Crawler

## Resumen

[**AI-Crawler**](https://aistudio.oxylabs.io/apps/crawl) es una app de extracción de datos que usa algoritmos avanzados de IA para rastrear un dominio dado. Identifica páginas relevantes según una indicación en lenguaje natural y extrae **JSON** o **Markdown** datos de salida estructurados.

Esta herramienta de bajo código está diseñada para simplificar tareas complejas de adquisición de datos, permitiendo a los desarrolladores y científicos de datos centrarse en el análisis en lugar de crear y mantener rastreadores web personalizados. El rastreador web de IA ofrece filtrado avanzado, análisis basado en esquema e integración fluida con varias canalizaciones de automatización.

Puedes previsualizar la herramienta [**aquí**](https://aistudio.oxylabs.io/apps/crawl) e integrarla en tus flujos de trabajo mediante nuestros SDKs de Python/JavaScript, el servidor MCP o una de nuestras integraciones de terceros.

## Características principales

* **Inicia un rastreo desde cualquier URL dada:** Comienza la extracción de datos desde cualquier dirección web válida usando AI Crawler como punto de partida.
* **Indicación en lenguaje natural:** Define tus necesidades de datos en inglés sencillo, y el agente de rastreo interpretará la indicación para encontrar contenido relevante.
* **Selección de URL asistida por IA:** El rastreador web de IA explora el sitio de forma inteligente, identificando y priorizando las páginas que más se alinean con tu indicación.
* **Varios formatos de salida:** Elige entre JSON estructurado o salida Markdown para una integración fluida en flujos de trabajo de automatización o IA.
* **Análisis basado en esquema:** Para la salida JSON, puedes definir un esquema de análisis en lenguaje natural para asegurar que los datos extraídos estén estructurados para adaptarse a tu aplicación.

## Uso

Para empezar con AI Crawler, sigue este proceso de cuatro pasos:

1. **Proporciona una URL inicial** del sitio web que quieres que el rastreador web explore.
2. **Describe el contenido** que quieres recuperar usando una indicación en lenguaje natural para el agente de rastreo.
3. **Selecciona el formato de salida.** Elige entre JSON estructurado o Markdown.
4. **Si usas salida JSON,** proporciona un esquema para guiar al rastreador web de IA en el análisis y la estructuración de los datos extraídos.

### Instalación

Para comenzar, asegúrate de tener acceso a una clave de API (o [obtén una prueba gratuita](https://aistudio.oxylabs.io/register) con **1,000 credits**) y `Python 3.10+` instalado. Puedes instalar el `oxylabs-ai-studio` paquete usando pip:

```sh
pip install oxylabs-ai-studio
```

### Ejemplos de código (Python)

Los siguientes ejemplos muestran cómo usar `AiCrawler` para realizar tareas comunes de rastreo.

```python
from oxylabs_ai_studio.apps.ai_crawler import AiCrawler
import json

# Initialize the AI Crawler with your API key
crawler = AiCrawler(api_key="your_api_key")

# Generate a schema automatically from natural language
schema = crawler.generate_schema(prompt="want to parse name, platform, price")
print(f"Generated schema: {schema}")

# Crawl a website and extract structured data
url = "https://sandbox.oxylabs.io/products"
result = crawler.crawl(
    url=url,
    user_prompt="Find all Halo games for Xbox",
    output_format="json",
    schema=schema,
    render_javascript=False,
    return_sources_limit=3,
    geo_location="US",
)

# Print the crawl output as JSON
print("Results:")
print(json.dumps(result.data, indent=2))
```

Obtén más información sobre AI-Crawler y el SDK de Python de Oxylabs AI Studio en nuestro [repositorio de PyPI](https://pypi.org/project/oxylabs-ai-studio/). También puedes consultar nuestra [guía del SDK de JavaScript de AI Studio](https://github.com/oxylabs/oxylabs-ai-studio-js) para usuarios de JS.

### Parámetros de la solicitud

| Parámetro                                                  | Descripción                                                          | Valor predeterminado |
| ---------------------------------------------------------- | -------------------------------------------------------------------- | -------------------- |
| <mark style="background-color:green;">`url`</mark>         | URL inicial para rastrear                                            | –                    |
| <mark style="background-color:green;">`user_prompt`</mark> | Indicación en lenguaje natural para guiar la extracción              | –                    |
| `output_format`                                            | Formato de salida (`json`, `markdown`)                               | `markdown`           |
| `schema`                                                   | Esquema OpenAPI para extracción estructurada (obligatorio para JSON) | –                    |
| `render_javascript`                                        | Habilitar renderizado de JavaScript                                  | `False`              |
| `return_sources_limit`                                     | Número máximo de fuentes a devolver                                  | `25`                 |
| `geo_location`                                             | Ubicación del proxy en formato ISO2                                  | –                    |

&#x20;    – parámetros obligatorios

#### Ejemplos de salida

`AI-Crawler` puede devolver una salida analizada y lista para usar, fácil de integrar en tus aplicaciones.

Así es como se ve su salida JSON:

```json
[
  {
    "data": {
      "items": [
        {
          "name": "Halo: Reach",
          "platform": "Xbox platform",
          "price": 84.99
        }
      ]
    },
    "src": "https://sandbox.oxylabs.io/products/141"
  },
  {
    "data": {
      "items": [
        {
          "name": "Halo 3",
          "platform": "Xbox platform",
          "price": 81.99
        }
      ]
    },
    "src": "https://sandbox.oxylabs.io/products/28"
  },
  {
    "data": {
      "items": [
        {
          "name": "Halo: Combat Evolved",
          "platform": "Xbox platform",
          "price": 87.99
        }
      ]
    },
    "src": "https://sandbox.oxylabs.io/products/6"
  }
]
```

Alternativamente, puedes usar `output_format=”markdown”` para recibir resultados en Markdown en lugar de JSON analizado.

### Casos de uso prácticos

AI-Crawler es una herramienta versátil para una amplia gama de aplicaciones, incluyendo:

1. **Encontrar páginas de términos de servicio:** Localiza rápidamente páginas legales y de políticas en un dominio.
2. **Recopilar páginas de precios:** Reúne detalles de precios para análisis de competencia o investigación de mercado.
3. **Recuperar todas las páginas “About”:** Encuentra y extrae automáticamente información de la empresa de una lista de sitios web.
4. **Listar artículos de noticias relacionados con IA:** Extrae un sitio de noticias para recopilar y archivar artículos sobre un tema específico.


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://developers.oxylabs.io/products/es/ai-studio/ai-crawler.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
