Documentation has been updated: see help center and changelog in one place.

Browser Agent

Aprende a controlar tu navegador con un agente de IA que imita acciones humanas mediante instrucciones simples en lenguaje natural.

Resumen

Browser Agent es una herramienta de automatización de navegador con IA de Oxylabs AI Studio. Simula la navegación de un usuario real ejecutando acciones multietapa como hacer clic en enlaces, completar formularios, desplazarse, capturar capturas de pantalla y luego extraer datos estructurados, todo controlado mediante indicaciones en lenguaje natural.

A diferencia de los marcos de automatización tradicionales (por ejemplo, Puppeteer o Selenium), Browser Agent no requiere reglas de scraping estáticas ni scripts manuales. Puedes describir tareas en inglés sencillo o proporcionar una secuencia de pasos, y la IA las realizará como lo haría un humano.

Puedes previsualizar la herramienta aquí e integrarla en tus flujos de trabajo mediante nuestros SDKs de Python/JavaScript, el servidor MCP o una de nuestras integraciones de terceros.

Funciones clave

  • Control total a través del navegador con IA – ejecutar clics, entradas, navegación y desplazamiento.

  • Ejecución de tareas multietapa – definir flujos de navegación en lenguaje natural.

  • Múltiples salidas – obtener resultados en JSON, Markdown, HTML o capturas PNG.

  • Soporte para contenido dinámico – interactuar con páginas renderizadas por JavaScript.

  • Extracción basada en esquemas – solicitar JSON estructurado después de que finalice la secuencia de navegación.

Cómo funciona

Para ejecutar tareas con el agente del navegador con IA, sigue estos pasos:

  1. Introduce la URL objetivo.

  2. Describe el proceso de navegación como:

    • Indicador en lenguaje natural (p. ej. “Abre la página de precios, acepta las cookies y extrae todos los nombres de productos con sus precios.)

    • Lista de pasos estructurada – proporciona un array de acciones del navegador con IA (click, type, navigate, wait, extract).

  3. Selecciona el formato de salida: JSON, Markdown, HTML o captura PNG.

  4. (Opcional) Si se selecciona JSON, define o genera automáticamente un esquema para estructurar los datos recopilados.

Instalación

Para empezar, asegúrate de tener acceso a una clave API (o consigue un prueba gratuita con 1000 créditos) y Python ver. 3.10 o una versión superior instalado. Puedes instalar el oxylabs-ai-studio paquete usando pip:

Ejemplos de código (Python)

Los siguientes ejemplos muestran cómo usar el agente del navegador con IA para realizar navegación y extracción de datos.

El ejemplo a continuación captura una captura PNG mientras usa Browser Agent.

Obtén más información sobre Browser Agent y el SDK de Python de Oxylabs AI Studio en nuestro repositorio PyPI. También puedes consultar nuestra SDK de JavaScript de AI Studio guía para usuarios de JS.

Parámetros de la solicitud

Parámetro
Descripción
Valor predeterminado

url*

URL inicial para navegar

user_prompt*

Indicador en lenguaje natural para extracción

output_format

Formato de salida (json, markdown, html, screenshot)

markdown

schema

Esquema OpenAPI para extracción estructurada (obligatorio para JSON)

geo_location

Ubicación del proxy en formato ISO2

* – parámetros obligatorios

Ejemplos de salida

Browser Agent puede devolver resultados analizados o capturas que son fáciles de integrar en tus aplicaciones. Así es como se ve nuestra salida JSON:

Aquí hay una salida de captura de pantalla de nuestra segunda solicitud:

Browser Agent admite múltiples formatos de salida ("output": "YOUR_FORMAT"):

  • json – datos estructurados usando análisis basado en esquemas.

  • markdown – datos fáciles de leer, perfectos para flujos de trabajo de IA y automatización.

  • html – datos HTML sin procesar de la página web.

  • screenshot – imagen PNG del contenido del navegador.

Casos de uso prácticos

Puedes usar AI Browser Agent de varias maneras, incluyendo:

  1. Simulación de pago en e-commerce – añadir artículos al carrito, aplicar cupón, confirmar el flujo de pago.

  2. Automatización de búsqueda de viajes – introducir destinos, aplicar filtros y extraer precios de vuelos u hoteles.

  3. Scraping de búsqueda de empleo – buscar un puesto, hacer clic en las ofertas, extraer detalles del trabajo.

  4. Descubrimiento de eventos y entradas – navegar por sitios de eventos, obtener títulos, fechas y precios.

Última actualización

¿Te fue útil?