For the complete documentation index, see llms.txt. This page is also available as Markdown.

Browser Agent

了解如何通过简单的自然语言指令,使用模拟人类操作的 AI 代理来控制你的浏览器。

概述

Browser Agent 是来自 Oxylabs AI Studio的 AI 浏览器自动化工具。它通过执行多步骤操作来模拟真实用户浏览,例如点击链接、填写表单、滚动、捕获截图,然后提取结构化数据——全部由自然语言提示控制。

与传统自动化框架(如 Puppeteer 或 Selenium)不同,Browser Agent 不需要静态抓取规则或手动脚本。你可以用简明英语描述任务,或提供一系列步骤,AI 会像人类一样执行它们。

您可以预览该工具 此处 并通过我们的 Python/JavaScript SDK、MCP 服务器或我们的第三方集成之一将其集成到您的工作流中。

主要功能

  • 通过浏览器 AI 完全控制 – 执行点击、输入、导航和滚动。

  • 多步骤任务执行 – 用自然语言定义浏览流程。

  • 多种输出 – 以 JSON、Markdown、HTML 或 PNG 截图形式获取结果。

  • 动态内容支持 – 与 JavaScript 渲染页面交互。

  • 基于 Schema 的提取 – 在浏览序列完成后请求结构化 JSON。

工作原理

要使用 browser AI agent 运行任务,请按照以下步骤:

  1. 输入目标 URL。

  2. 将浏览过程描述为:

    • 自然语言提示 (例如:“打开价格页面,接受 Cookie,并提取所有产品名称及价格。)

    • 结构化步骤列表 – 提供 AI 浏览器操作数组(click, type, navigate, wait, extract).

  3. 选择输出格式: JSON、Markdown、HTML 或 PNG 截图。

  4. (可选)如果选择 JSON,请定义或自动生成 schema 来组织收集到的数据。

安装

开始之前,请确保你有 API 密钥访问权限(或获取一个 免费试用 含 1000 点数)并且已安装 Python 版本 3.10 或更高版本。您可以安装 oxylabs-ai-studio 软件包,使用 pip:

代码示例(Python)

以下示例展示如何使用浏览器 AI agent 执行浏览和数据提取。

下面的示例在使用 Browser Agent 时捕获 PNG 截图。

在我们的文档中了解更多关于 Browser Agent 和 Oxylabs AI Studio Python SDK 的信息 PyPI 存储库。 你也可以查看我们的 AI Studio JavaScript SDK 指南,适用于 JS 用户。

请求参数

参数
说明
默认值

url

要浏览的起始 URL

user_prompt

用于提取的自然语言提示

output_format

输出格式(json, markdown, html, screenshot)

markdown

schema

用于结构化提取的 OpenAPI schema(JSON 必需)

geo_location

ISO2 格式的代理位置

– 必填参数

输出示例

Browser Agent 可以返回易于集成到应用中的解析结果或截图。以下是我们的 JSON 输出示例:

以下是我们第二个请求的截图输出:

Browser Agent 支持多种输出格式("output": "YOUR_FORMAT"):

  • json – 使用基于 schema 的解析生成结构化数据。

  • markdown – 易于阅读的数据,非常适合 AI 和自动化工作流。

  • html – 网页的原始 HTML 数据。

  • screenshot – 浏览器内容的 PNG 图像。

实际用例

你可以在多种场景中使用 AI Browser Agent,包括:

  1. 电商结账模拟 – 添加商品到购物车、应用优惠券、确认结账流程。

  2. 旅行搜索自动化 – 输入目的地、应用筛选条件,并提取航班或酒店价格。

  3. 职位搜索抓取 – 搜索职位,点击浏览岗位信息,提取职位详情。

  4. 活动与门票发现 – 浏览活动网站,获取标题、日期和价格。

最后更新于

这有帮助吗?