Browser Agent
了解如何使用 AI 代理通过简单的自然语言指令控制浏览器,使其模拟人类操作。
概览
Browser Agent 是来自 Oxylabs AI Studio的一个 AI 浏览器自动化工具。它通过执行多步骤操作(如点击链接、填写表单、滚动、截取屏幕截图),然后提取结构化数据,来模拟真实用户的浏览行为——所有操作都通过自然语言提示进行控制。
与传统自动化框架(例如 Puppeteer 或 Selenium)不同,Browser Agent 不需要静态的抓取规则或手动脚本。你可以用简单的英文描述任务或提供步骤序列,AI 会像人类一样执行它们。
您可以预览该工具 此处 并通过我们的 Python/JavaScript SDK、MCP 服务器或我们的一些第三方集成将其集成到您的工作流中。
主要功能
通过浏览器 AI 完全控制 – 执行点击、输入、导航和滚动。
多步骤任务执行 – 用自然语言定义浏览流程。
多种输出格式 – 以 JSON、Markdown、HTML 或 PNG 截图获取结果。
动态内容支持 – 与基于 JavaScript 渲染的页面交互。
基于 Schema 的提取 – 在浏览序列完成后请求结构化的 JSON。
工作原理
要使用浏览器 AI 代理运行任务,请按以下步骤操作:
输入目标 URL。
将浏览过程描述为:
自然语言提示 (例如 “打开定价页面,接受 cookies,并提取所有带价格的产品名称。”)
结构化步骤列表 – 提供一个 AI 浏览器操作数组(
click,type,navigate,wait,extract).
选择输出格式: JSON、Markdown、HTML 或 PNG 截图。
(可选)如果选择 JSON,请定义或自动生成 schema 来结构化收集到的数据。
安装
开始之前,请确保你有 API 密钥的访问权限(或获取一个 免费试用 包含 1000 个积分)并且 Python ver. 3.10 或更高版本。您可以使用 pip 安装 oxylabs-ai-studio 包:
pip install oxylabs-ai-studio示例代码(Python)
以下示例展示了如何使用浏览器 AI 代理执行浏览和数据提取。
from oxylabs_ai_studio.apps.browser_agent import BrowserAgent
browser_agent = BrowserAgent(api_key="<API_KEY>")
schema = browser_agent.generate_schema(
prompt="游戏名称、平台、评分星级和价格"
)
print("模式: ", schema)
prompt = "查找商店中是否有游戏 'super mario odyssey'。如果有,找出其价格。使用搜索栏查找该游戏。"
url = "https://sandbox.oxylabs.io/"
result = browser_agent.run(
url=url,
user_prompt=prompt,
output_format="json",
schema=schema,
)
print(result.data)下面的示例使用 Browser Agent 捕获一个 PNG 屏幕截图。
import base64
from oxylabs_ai_studio.apps.browser_agent import BrowserAgent
browser_agent = BrowserAgent(api_key="<API_KEY>")
result = browser_agent.run(
url = "https://sandbox.oxylabs.io/",
user_prompt= "Go to the website and take a screenshot of the home page",
output_format="screenshot",
)
with open("screenshot.png", "wb") as f:
f.write(base64.b64decode(result.data.content["data"]))在我们的 PyPI 仓库中了解有关 Browser Agent 和 Oxylabs AI Studio Python SDK 的更多信息。 你也可以查看我们的 AI Studio JavaScript SDK 供 JS 用户使用的指南。
请求参数
url*
要浏览的起始 URL
–
user_prompt*
用于提取的自然语言提示
–
output_format
输出格式(json, markdown, html, screenshot)
markdown
schema
用于结构化提取的 OpenAPI schema(JSON 必填)
–
geo_location
以 ISO2 格式表示的代理位置
–
* – 必需参数
输出示例
Browser Agent 可以返回易于集成到应用中的解析结果或截图。我们的 JSON 输出如下所示:
{
"type": "json",
"content": {
"games": [
{
"game_name": "Super Mario Odyssey",
"platform": "Nintendo Switch",
"review_stars": null,
"price": 89.99
}
]
}
}下面是我们第二个请求的屏幕截图输出:

Browser Agent 支持多种输出格式("output": "YOUR_FORMAT"):
json– 使用基于 schema 的解析获取结构化数据。markdown– 易读数据,适用于 AI 和自动化工作流。html– 网页的原始 HTML 数据。screenshot– 浏览器内容的 PNG 图像。
实际使用场景
你可以以多种方式使用 AI Browser Agent,包括:
电商结账模拟 – 将商品加入购物车、应用优惠券、确认结账流程。
旅行搜索自动化 – 输入目的地、应用筛选并提取航班或酒店价格。
职位搜索抓取 – 搜索职位、点击职位列表并提取职位详情。
活动与票务发现 – 浏览活动网站,检索标题、日期和价格。
最后更新于
这有帮助吗?

