Browser Agent

了解如何通过简单的自然语言指令使用模拟人类操作的 AI 代理来控制您的浏览器。

概览

Browser Agent 是来自 Oxylabs AI Studio的 AI 浏览器自动化工具。它通过执行多步操作（如点击链接、填写表单、滚动、截取屏幕截图），然后提取结构化数据来模拟真实用户的浏览行为——所有操作均通过自然语言提示进行控制。

与传统自动化框架（例如 Puppeteer 或 Selenium）不同，Browser Agent 不需要静态的爬取规则或手动编写脚本。您可以用简单的英文描述任务或提供步骤序列，AI 会像人类一样执行这些操作。

您可以预览该工具此处并通过我们的 Python/JavaScript SDK、MCP 服务器或我们的一些第三方集成将其集成到您的工作流中。

主要功能

通过浏览器 AI 完全控制 – 执行点击、输入、导航和滚动。
多步骤任务执行 – 用自然语言定义浏览流程。
多种输出 – 以 JSON、Markdown、HTML 或 PNG 截图的形式获取结果。
动态内容支持 – 与 JavaScript 渲染的页面进行交互。
基于模式的提取 – 在浏览序列完成后请求结构化的 JSON。

工作原理

要使用浏览器 AI Agent 运行任务，请按照以下步骤：

输入目标 URL。
将浏览过程描述为：
- 自然语言提示 （例如 “打开定价页面，接受 cookie，并提取所有产品名称及价格。”）
- 结构化步骤列表 – 提供一个 AI 浏览器操作的数组（click, type, navigate, wait, extract).
选择输出格式： JSON、Markdown、HTML 或 PNG 截图。
（可选）如果选择 JSON，定义或自动生成一个模式来结构化收集到的数据。

安装

要开始，请确保您有 API 密钥的访问权限（或获取一个免费试用含 1000 积分）且 Python ver. 3.10 或更高版本。您可以使用 pip 安装 oxylabs-ai-studio 软件包：

pip install oxylabs-ai-studio

代码示例（Python）

以下示例演示如何使用浏览器 AI Agent 执行浏览和数据提取。

from oxylabs_ai_studio.apps.browser_agent import BrowserAgent

browser_agent = BrowserAgent(api_key="<API_KEY>")

schema = browser_agent.generate_schema(
    prompt="游戏名称、平台、评分星级和价格"
)
print("schema: ", schema)

prompt = "查找商店中是否有游戏 'super mario odyssey'。如果有，找出价格。使用搜索栏查找该游戏。"
url = "https://sandbox.oxylabs.io/"
result = browser_agent.run(
    url=url,
    user_prompt=prompt,
    output_format="json",
    schema=schema,
)
print(result.data)

下面的示例在使用 Browser Agent 时捕获 PNG 屏幕截图。

import base64
from oxylabs_ai_studio.apps.browser_agent import BrowserAgent

browser_agent = BrowserAgent(api_key="<API_KEY>")

result = browser_agent.run(
    url = "https://sandbox.oxylabs.io/",
    user_prompt= "Go to the website and take a screenshot of the home page",
    output_format="screenshot",
)

with open("screenshot.png", "wb") as f:
    f.write(base64.b64decode(result.data.content["data"]))

在我们的文档中了解有关 Browser Agent 和 Oxylabs AI Studio Python SDK 的更多信息， PyPI 存储库。您还可以查看我们的 AI Studio JavaScript SDK 供 JS 用户的指南。

请求参数

参数

说明

默认值

url*

要浏览的起始 URL

—

user_prompt*

用于提取的自然语言提示

—

output_format

输出格式（json, markdown, html, screenshot)

markdown

schema

用于结构化提取的 OpenAPI 模式（JSON 时为必填）

—

geo_location

以 ISO2 格式的代理位置

—

* – 必填参数

输出示例

Browser Agent 可以返回易于集成到您应用中的解析结果或截图。我们的 JSON 输出示例如下：

{
  "type": "json",
  "content": {
    "games": [
      {
        "game_name": "Super Mario Odyssey",
        "platform": "Nintendo Switch",
        "review_stars": null,
        "price": 89.99
      }
    ]
  }
}

下面是我们第二个请求的截图输出：

Browser Agent 支持多种输出格式（"output": "YOUR_FORMAT"):

json – 使用基于模式的解析返回结构化数据。
markdown – 易读的数据，适用于 AI 和自动化工作流。
html – 网页的原始 HTML 数据。
screenshot – 浏览器内容的 PNG 图像。

实际使用场景

您可以以多种方式使用 AI Browser Agent，包括：

电商结账模拟 – 将商品加入购物车、应用优惠券、确认结账流程。
旅行搜索自动化 – 输入目的地、应用筛选器，并提取航班或酒店价格。
职位搜索爬取 – 搜索职位，点击浏览职位详情，提取职位信息。
活动与票务发现 – 浏览活动网站，检索标题、日期和价格。

上一页AI-Scraper 下一页AI-Crawler

最后更新于4个月前

这有帮助吗？

早上好

hashtag概览

hashtag主要功能

hashtag工作原理

hashtag安装

hashtag代码示例（Python）

hashtag请求参数

hashtag输出示例

hashtag实际使用场景

概览