# Browser Agent

## Resumen

[**Browser Agent**](https://aistudio.oxylabs.io/apps/browser_agent) es una herramienta de automatización de navegador con IA de [**Oxylabs AI Studio**](https://aistudio.oxylabs.io/). Simula la navegación de un usuario real ejecutando acciones multietapa como hacer clic en enlaces, completar formularios, desplazarse, capturar capturas de pantalla y luego extraer datos estructurados, todo controlado mediante indicaciones en lenguaje natural.

A diferencia de los marcos de automatización tradicionales (por ejemplo, Puppeteer o Selenium), Browser Agent no requiere reglas de scraping estáticas ni scripts manuales. Puedes describir tareas en inglés sencillo o proporcionar una secuencia de pasos, y la IA las realizará como lo haría un humano.

Puedes previsualizar la herramienta [**aquí**](https://aistudio.oxylabs.io/apps/browser_agent) e integrarla en tus flujos de trabajo mediante nuestros SDKs de Python/JavaScript, el servidor MCP o una de nuestras integraciones de terceros.

## Funciones clave

* **Control total a través del navegador con IA** – ejecutar clics, entradas, navegación y desplazamiento.
* **Ejecución de tareas multietapa** – definir flujos de navegación en lenguaje natural.
* **Múltiples salidas** – obtener resultados en JSON, Markdown, HTML o capturas PNG.
* **Soporte para contenido dinámico** – interactuar con páginas renderizadas por JavaScript.
* **Extracción basada en esquemas** – solicitar JSON estructurado después de que finalice la secuencia de navegación.

## Cómo funciona

Para ejecutar tareas con el agente del navegador con IA, sigue estos pasos:

1. **Introduce la URL objetivo.**
2. **Describe el proceso de navegación como:**
   * **Indicador en lenguaje natural** (p. ej. “Abre la página de precios, acepta las cookies y extrae todos los nombres de productos con sus precios.)
   * **Lista de pasos estructurada** – proporciona un array de acciones del navegador con IA (`click`, `type`, `navigate`, `wait`, `extract`).
3. **Selecciona el formato de salida:** JSON, Markdown, HTML o captura PNG.
4. **(Opcional) Si se selecciona JSON**, define o genera automáticamente un esquema para estructurar los datos recopilados.

### Instalación

Para empezar, asegúrate de tener acceso a una clave API (o consigue un [prueba gratuita](https://aistudio.oxylabs.io/register) con 1000 créditos) y `Python ver. 3.10` o una versión superior instalado. Puedes instalar el `oxylabs-ai-studio` paquete usando pip:

```sh
pip install oxylabs-ai-studio
```

### Ejemplos de código (Python)

Los siguientes ejemplos muestran cómo usar el agente del navegador con IA para realizar navegación y extracción de datos.

```python
from oxylabs_ai_studio.apps.browser_agent import BrowserAgent

browser_agent = BrowserAgent(api_key="<API_KEY>")

schema = browser_agent.generate_schema(
    prompt="nombre del juego, plataforma, estrellas de reseña y precio"
)
print("esquema: ", schema)

prompt = "Busca si existe el juego 'super mario odyssey' en la tienda. Si existe, encuentra el precio. Usa la barra de búsqueda para encontrar el juego."
url = "https://sandbox.oxylabs.io/"
result = browser_agent.run(
    url=url,
    user_prompt=prompt,
    output_format="json",
    schema=schema,
)
print(result.data)
```

El ejemplo a continuación captura una captura PNG mientras usa Browser Agent.

```python
import base64
from oxylabs_ai_studio.apps.browser_agent import BrowserAgent

browser_agent = BrowserAgent(api_key="<API_KEY>")

result = browser_agent.run(
    url = "https://sandbox.oxylabs.io/",
    user_prompt= "Ve al sitio web y toma una captura de pantalla de la página principal",
    output_format="screenshot",
)

with open("screenshot.png", "wb") as f:
    f.write(base64.b64decode(result.data.content["data"]))
```

Obtén más información sobre Browser Agent y el SDK de Python de Oxylabs AI Studio en nuestro [repositorio PyPI](https://pypi.org/project/oxylabs-ai-studio/).\
También puedes consultar nuestra [SDK de JavaScript de AI Studio](https://github.com/oxylabs/oxylabs-ai-studio-js?tab=readme-ov-file#oxylabs-ai-studio-javascript-sdk) guía para usuarios de JS.

### Parámetros de la solicitud

| Parámetro       | Descripción                                                          | Valor predeterminado |
| --------------- | -------------------------------------------------------------------- | -------------------- |
| `url`\*         | URL inicial para navegar                                             | –                    |
| `user_prompt`\* | Indicador en lenguaje natural para extracción                        | –                    |
| `output_format` | Formato de salida (`json`, `markdown`, `html`, `screenshot`)         | `markdown`           |
| `schema`        | Esquema OpenAPI para extracción estructurada (obligatorio para JSON) | –                    |
| `geo_location`  | Ubicación del proxy en formato ISO2                                  | –                    |

\* – parámetros obligatorios

### Ejemplos de salida

Browser Agent puede devolver resultados analizados o capturas que son fáciles de integrar en tus aplicaciones. Así es como se ve nuestra salida JSON:

```json
{
  "type": "json",
  "content": {
    "games": [
      {
        "game_name": "Super Mario Odyssey",
        "platform": "Nintendo Switch",
        "review_stars": null,
        "price": 89.99
      }
    ]
  }
}
```

Aquí hay una salida de captura de pantalla de nuestra segunda solicitud:

<figure><img src="https://github.com/oxylabs/browser-agent-py/raw/main/screenshot.png" alt=""><figcaption></figcaption></figure>

Browser Agent admite múltiples formatos de salida (`"output": "YOUR_FORMAT"`):

* `json` – datos estructurados usando análisis basado en esquemas.
* `markdown` – datos fáciles de leer, perfectos para flujos de trabajo de IA y automatización.
* `html` – datos HTML sin procesar de la página web.
* `screenshot` – imagen PNG del contenido del navegador.

## Casos de uso prácticos

Puedes usar AI Browser Agent de varias maneras, incluyendo:

1. **Simulación de pago en e-commerce** – añadir artículos al carrito, aplicar cupón, confirmar el flujo de pago.
2. **Automatización de búsqueda de viajes** – introducir destinos, aplicar filtros y extraer precios de vuelos u hoteles.
3. **Scraping de búsqueda de empleo** – buscar un puesto, hacer clic en las ofertas, extraer detalles del trabajo.
4. **Descubrimiento de eventos y entradas** – navegar por sitios de eventos, obtener títulos, fechas y precios.
