Browser Agent

Aprenda cómo controlar su navegador con un agente de IA que imita acciones humanas mediante instrucciones simples en lenguaje natural.

Resumen

Browser Agent es una herramienta de automatización de navegador con IA de Oxylabs AI Studio. Simula la navegación de un usuario real ejecutando acciones multietapa como hacer clic en enlaces, completar formularios, desplazarse, capturar capturas de pantalla y luego extraer datos estructurados, todo controlado mediante indicaciones en lenguaje natural.

A diferencia de los marcos de automatización tradicionales (por ejemplo, Puppeteer o Selenium), Browser Agent no requiere reglas de scraping estáticas ni scripts manuales. Puedes describir tareas en inglés sencillo o proporcionar una secuencia de pasos, y la IA las realizará como lo haría un humano.

Puedes previsualizar la herramienta aquí e integrarla en tus flujos de trabajo mediante nuestros SDKs de Python/JavaScript, el servidor MCP o una de nuestras integraciones de terceros.

Funciones clave

Control total a través del navegador con IA – ejecutar clics, entradas, navegación y desplazamiento.
Ejecución de tareas multietapa – definir flujos de navegación en lenguaje natural.
Múltiples salidas – obtener resultados en JSON, Markdown, HTML o capturas PNG.
Soporte para contenido dinámico – interactuar con páginas renderizadas por JavaScript.
Extracción basada en esquemas – solicitar JSON estructurado después de que finalice la secuencia de navegación.

Cómo funciona

Para ejecutar tareas con el agente del navegador con IA, sigue estos pasos:

Introduce la URL objetivo.
Describe el proceso de navegación como:
- Indicador en lenguaje natural (p. ej. “Abre la página de precios, acepta las cookies y extrae todos los nombres de productos con sus precios.)
- Lista de pasos estructurada – proporciona un array de acciones del navegador con IA (click, type, navigate, wait, extract).
Selecciona el formato de salida: JSON, Markdown, HTML o captura PNG.
(Opcional) Si se selecciona JSON, define o genera automáticamente un esquema para estructurar los datos recopilados.

Instalación

Para empezar, asegúrate de tener acceso a una clave API (o consigue un prueba gratuita con 1000 créditos) y Python ver. 3.10 o una versión superior instalado. Puedes instalar el oxylabs-ai-studio paquete usando pip:

pip install oxylabs-ai-studio

Ejemplos de código (Python)

Los siguientes ejemplos muestran cómo usar el agente del navegador con IA para realizar navegación y extracción de datos.

from oxylabs_ai_studio.apps.browser_agent import BrowserAgent

browser_agent = BrowserAgent(api_key="<API_KEY>")

schema = browser_agent.generate_schema(
    prompt="nombre del juego, plataforma, estrellas de reseña y precio"
)
print("esquema: ", schema)

prompt = "Busca si existe el juego 'super mario odyssey' en la tienda. Si existe, encuentra el precio. Usa la barra de búsqueda para encontrar el juego."
url = "https://sandbox.oxylabs.io/"
result = browser_agent.run(
    url=url,
    user_prompt=prompt,
    output_format="json",
    schema=schema,
)
print(result.data)

El ejemplo a continuación captura una captura PNG mientras usa Browser Agent.

import base64
from oxylabs_ai_studio.apps.browser_agent import BrowserAgent

browser_agent = BrowserAgent(api_key="<API_KEY>")

result = browser_agent.run(
    url = "https://sandbox.oxylabs.io/",
    user_prompt= "Ve al sitio web y toma una captura de pantalla de la página principal",
    output_format="screenshot",
)

with open("screenshot.png", "wb") as f:
    f.write(base64.b64decode(result.data.content["data"]))

Obtén más información sobre Browser Agent y el SDK de Python de Oxylabs AI Studio en nuestro repositorio PyPI. También puedes consultar nuestra SDK de JavaScript de AI Studio guía para usuarios de JS.

Parámetros de la solicitud

Parámetro

Descripción

Valor predeterminado

url*

URL inicial para navegar

–

user_prompt*

Indicador en lenguaje natural para extracción

–

output_format

Formato de salida (json, markdown, html, screenshot)

markdown

schema

Esquema OpenAPI para extracción estructurada (obligatorio para JSON)

–

geo_location

Ubicación del proxy en formato ISO2

–

* – parámetros obligatorios

Ejemplos de salida

Browser Agent puede devolver resultados analizados o capturas que son fáciles de integrar en tus aplicaciones. Así es como se ve nuestra salida JSON:

{
  "type": "json",
  "content": {
    "games": [
      {
        "game_name": "Super Mario Odyssey",
        "platform": "Nintendo Switch",
        "review_stars": null,
        "price": 89.99
      }
    ]
  }
}

Aquí hay una salida de captura de pantalla de nuestra segunda solicitud:

Browser Agent admite múltiples formatos de salida ("output": "YOUR_FORMAT"):

json – datos estructurados usando análisis basado en esquemas.
markdown – datos fáciles de leer, perfectos para flujos de trabajo de IA y automatización.
html – datos HTML sin procesar de la página web.
screenshot – imagen PNG del contenido del navegador.

Casos de uso prácticos

Puedes usar AI Browser Agent de varias maneras, incluyendo:

Simulación de pago en e-commerce – añadir artículos al carrito, aplicar cupón, confirmar el flujo de pago.
Automatización de búsqueda de viajes – introducir destinos, aplicar filtros y extraer precios de vuelos u hoteles.
Scraping de búsqueda de empleo – buscar un puesto, hacer clic en las ofertas, extraer detalles del trabajo.
Descubrimiento de eventos y entradas – navegar por sitios de eventos, obtener títulos, fechas y precios.

AnteriorAI-Scraper SiguienteAI-Crawler

Última actualización hace 4 meses

¿Te fue útil?

Buenas noches

hashtagResumen

hashtagFunciones clave

hashtagCómo funciona

hashtagInstalación

hashtagEjemplos de código (Python)

hashtagParámetros de la solicitud

hashtagEjemplos de salida

hashtagCasos de uso prácticos