# AI-Scraper

## Resumen

[**AI-Scraper**](https://aistudio.oxylabs.io/apps/scrape) es una herramienta de scraping que extrae datos de una sola página web. Identifica y analiza la información relevante según un prompt en lenguaje natural, luego entrega los resultados en **JSON** (para automatización y APIs) o **Markdown** formato (mejor para salidas legibles y flujos de trabajo con IA).

Este AI scraper elimina la necesidad de selectores CSS/XPath o parsers personalizados, por lo que se integra sin problemas con diversas canalizaciones de automatización. **Generación automática de esquema** y formatos de salida flexibles brindan a los usuarios una forma sencilla de extraer datos limpios y estructurados sin tener que mantener nunca la lógica de parseo.

Puedes previsualizar la herramienta [**aquí**](https://aistudio.oxylabs.io/apps/scrape) e integrarla en tus flujos de trabajo mediante nuestros SDKs de Python/JavaScript, el servidor MCP o una de nuestras integraciones de terceros.

## Funciones clave

* **Extracción basada en prompts en lenguaje natural** – Define tus necesidades en inglés sencillo, y el agente de scraping recuperará la información relevante.
* **Múltiples formatos de salida** – Elige JSON para flujos de trabajo estructurados o Markdown para resultados legibles por humanos y flujos de trabajo con IA.
* **Generación automática de esquema** – Genera un esquema automáticamente a partir de un prompt o defínelo manualmente para un parseo JSON preciso.
* **Funciona en cualquier página pública** – Extrae de e-commerce, noticias, blogs o cualquier otra fuente accesible.

## Cómo funciona

Para scrapear una página con AI-Scraper, sigue estos pasos:

1. **Proporciona la URL de la página** que deseas scrapear.
2. **Describe los datos a extraer** en lenguaje natural (por ejemplo, “Obtener todos los nombres de productos y precios”).
3. **Selecciona el formato de salida** – JSON estructurado o Markdown.
4. **(Opcional) Define un esquema** – Deja que AI-Scraper genere uno automáticamente, o proporciona tu propio esquema OpenAPI para la estructura exacta que deseas.

### Instalación

Para comenzar, asegúrate de tener acceso a una clave de API de AI Studio (o [obtén una prueba gratuita](https://aistudio.oxylabs.io/register) con 1000 créditos) y `Python v3.10` o superior instalado. Puedes instalar el `oxylabs-ai-studio` paquete usando pip:

```sh
pip install oxylabs-ai-studio
```

### Ejemplos de código (Python)

Los siguientes ejemplos muestran cómo usar `AiScraper` para extraer datos de una página de ejemplo.

```python
from oxylabs_ai_studio.apps.ai_scraper import AiScraper
import json

# Initialize the AI Scraper with your API key
scraper = AiScraper(api_key="YOUR_API_KEY")

# Generate a schema automatically from natural language
schema = scraper.generate_schema(prompt="want to parse developer, platform, type, price game title, and genre (array)")
print(f"Generated schema: {schema}")

# Scrape a webpage and extract structured data
url = "https://sandbox.oxylabs.io/products/3"
result = scraper.scrape(
    url=url,
    output_format="json",
    schema=schema,
    render_javascript=False,
    geo_location="US",
)
# Print the scrape output as JSON
print("Results:")
print(json.dumps(result.data, indent=2))
```

Aprende más sobre AI-Scraper y el SDK de Python de Oxylabs AI Studio en nuestro [repositorio PyPI](https://pypi.org/project/oxylabs-ai-studio/). También puedes consultar nuestro [AI Studio JavaScript SDK](https://github.com/oxylabs/oxylabs-ai-studio-js) guía para usuarios de JS.

### Parámetros de la solicitud

| Parámetro           | Descripción                                                          | Valor predeterminado |
| ------------------- | -------------------------------------------------------------------- | -------------------- |
| `url`\*             | URL objetivo a scrapear                                              | –                    |
| `output_format`     | Formato de salida (`json`, `markdown`)                               | `markdown`           |
| `schema`            | Esquema OpenAPI para extracción estructurada (obligatorio para JSON) | –                    |
| `render_javascript` | Habilitar renderizado de JavaScript                                  | `False`              |
| `geo_location`      | Ubicación del proxy en formato ISO2                                  | –                    |

`*` – parámetros obligatorios

### Muestras de salida

AI-Scraper puede devolver salidas parseadas y listas para usar que son fáciles de integrar en tus aplicaciones.

Así se ve su salida JSON:

```json
{
  "games": [
    {
      "developer": "Nintendo EAD Tokyo",
      "platform": "wii",
      "type": "singleplayer",
      "price": 91.99,
      "title": "Super Mario Galaxy 2",
      "genre": [
        "Action",
        "Platformer"
      ]
    },
    {
      "developer": "Eidos Interactive",
      "platform": "wii",
      "type": null,
      "price": 80.99,
      "title": "Death Jr.: Root of Evil",
      "genre": [
        "Action",
        "Platformer",
        "3D"
      ]
    }
}
```

Alternativamente, puedes configurar `output_format`  a `markdown` para recibir resultados en formato Markdown en lugar de JSON.

## Casos de uso prácticos

AI-Scraper puede aplicarse a una amplia variedad de tareas de recopilación de datos:

1. **Extraer detalles de productos** – Recolectar nombres de productos, descripciones y precios de sitios de e-commerce.
2. **Parsear artículos de noticias** – Recuperar títulos de artículos, fechas, autores y el texto del cuerpo.
3. **Scrapear páginas de precios** – Recopilar información de precios estructurada para investigación de competidores o de mercado.
4. **Extraer ofertas de empleo** – Capturar títulos de trabajo, ubicaciones, salarios y fechas de publicación desde portales de reclutamiento.

<br>
