circle-check
Documentation has been updated: see help center and changelog in one place.

Browser Agent

Aprende a controlar tu navegador con un agente de IA que imita acciones humanas mediante instrucciones simples en lenguaje natural.

Resumen

Browser Agentarrow-up-right es una herramienta de automatización de navegador con IA de Oxylabs AI Studioarrow-up-right. Simula la navegación de un usuario real ejecutando acciones multietapa como hacer clic en enlaces, completar formularios, desplazarse, capturar capturas de pantalla y luego extraer datos estructurados, todo controlado mediante indicaciones en lenguaje natural.

A diferencia de los marcos de automatización tradicionales (por ejemplo, Puppeteer o Selenium), Browser Agent no requiere reglas de scraping estáticas ni scripts manuales. Puedes describir tareas en inglés sencillo o proporcionar una secuencia de pasos, y la IA las realizará como lo haría un humano.

Puedes previsualizar la herramienta aquíarrow-up-right e integrarla en tus flujos de trabajo mediante nuestros SDKs de Python/JavaScript, el servidor MCP o una de nuestras integraciones de terceros.

Funciones clave

  • Control total a través del navegador con IA – ejecutar clics, entradas, navegación y desplazamiento.

  • Ejecución de tareas multietapa – definir flujos de navegación en lenguaje natural.

  • Múltiples salidas – obtener resultados en JSON, Markdown, HTML o capturas PNG.

  • Soporte para contenido dinámico – interactuar con páginas renderizadas por JavaScript.

  • Extracción basada en esquemas – solicitar JSON estructurado después de que finalice la secuencia de navegación.

Cómo funciona

Para ejecutar tareas con el agente del navegador con IA, sigue estos pasos:

  1. Introduce la URL objetivo.

  2. Describe el proceso de navegación como:

    • Indicador en lenguaje natural (p. ej. “Abre la página de precios, acepta las cookies y extrae todos los nombres de productos con sus precios.)

    • Lista de pasos estructurada – proporciona un array de acciones del navegador con IA (click, type, navigate, wait, extract).

  3. Selecciona el formato de salida: JSON, Markdown, HTML o captura PNG.

  4. (Opcional) Si se selecciona JSON, define o genera automáticamente un esquema para estructurar los datos recopilados.

Instalación

Para empezar, asegúrate de tener acceso a una clave API (o consigue un prueba gratuitaarrow-up-right con 1000 créditos) y Python ver. 3.10 o una versión superior instalado. Puedes instalar el oxylabs-ai-studio paquete usando pip:

Ejemplos de código (Python)

Los siguientes ejemplos muestran cómo usar el agente del navegador con IA para realizar navegación y extracción de datos.

El ejemplo a continuación captura una captura PNG mientras usa Browser Agent.

Obtén más información sobre Browser Agent y el SDK de Python de Oxylabs AI Studio en nuestro repositorio PyPIarrow-up-right. También puedes consultar nuestra SDK de JavaScript de AI Studioarrow-up-right guía para usuarios de JS.

Parámetros de la solicitud

Parámetro
Descripción
Valor predeterminado

url*

URL inicial para navegar

user_prompt*

Indicador en lenguaje natural para extracción

output_format

Formato de salida (json, markdown, html, screenshot)

markdown

schema

Esquema OpenAPI para extracción estructurada (obligatorio para JSON)

geo_location

Ubicación del proxy en formato ISO2

* – parámetros obligatorios

Ejemplos de salida

Browser Agent puede devolver resultados analizados o capturas que son fáciles de integrar en tus aplicaciones. Así es como se ve nuestra salida JSON:

Aquí hay una salida de captura de pantalla de nuestra segunda solicitud:

Browser Agent admite múltiples formatos de salida ("output": "YOUR_FORMAT"):

  • json – datos estructurados usando análisis basado en esquemas.

  • markdown – datos fáciles de leer, perfectos para flujos de trabajo de IA y automatización.

  • html – datos HTML sin procesar de la página web.

  • screenshot – imagen PNG del contenido del navegador.

Casos de uso prácticos

Puedes usar AI Browser Agent de varias maneras, incluyendo:

  1. Simulación de pago en e-commerce – añadir artículos al carrito, aplicar cupón, confirmar el flujo de pago.

  2. Automatización de búsqueda de viajes – introducir destinos, aplicar filtros y extraer precios de vuelos u hoteles.

  3. Scraping de búsqueda de empleo – buscar un puesto, hacer clic en las ofertas, extraer detalles del trabajo.

  4. Descubrimiento de eventos y entradas – navegar por sitios de eventos, obtener títulos, fechas y precios.

Última actualización

¿Te fue útil?