OxyCopilot

使用 OxyCopilot 自动化抓取。了解如何使用简单的自然语言提示生成 网页爬虫API 负载、自定义解析器 和浏览器指令。

OxyCopilot 是一个免费的 网页爬虫API 功能,可让入门更轻松,并帮助用户为复杂用例找到有效解决方案,且无需具备编码知识。OxyCopilot 目前包含三个独立功能:

爬虫构建器

OxyCopilot 可帮助你配置爬虫(并构建请求负载),用于网页爬虫API,而无需理解文档或字段逻辑。

工作原理

步骤 1:提供 URL 和提示

  • URL: 提供你想要抓取的 URL。

  • 提示: 描述你的需求(例如,本地化、JS 渲染等)。

步骤 2:解析

你有三种处理解析的选项:

  1. 自定义解析器:选择“添加解析说明”,使用 自定义解析器构建器.

  2. 专用解析器:如果该 URL 来自我们提供专用解析器的网站,并且你想使用它,请选择“继续使用专用解析器”。

  3. 不解析:如果不需要结构化数据,请选择不进行解析。

如果我们没有专用解析器
如果我们有专用解析器

步骤 3:检查请求

根据你的提示,OxyCopilot 会在网页爬虫API Playground 中预填必要参数。你将看到适用于你的用例的具体请求代码和参数,如有需要可以调整参数。

步骤 4:提交请求并复制

如果一切正常,提交请求查看输出效果,并检查其是否按预期工作。然后,复制请求代码,以便在后续抓取任务中使用网页爬虫API。

示例

URL

提示

AI 生成的参数(JSON)

AI 生成的请求代码

自定义解析器构建器

利用 自定义解析器 功能与 OxyCopilot 一起构建解析器,无需编写代码或手动分析网站结构。

工作原理

步骤 1:提供 URL 和提示

  • URL: 你最多可以提供 3 个 URL ,用于生成解析说明。OxyCopilot 会使用所提供 URL 的 HTML 来确定提取所需字段的最佳逻辑。

你提供的 URL 越多,解析说明就越稳健,因为 OxyCopilot 会识别相似页面中的共同模式。请注意,额外的 URL 可能会增加结果等待时间。

  • 提示: 提示是构建自然语言 schema 的关键组成部分,它是生成实际解析说明的基础。提示应清楚描述需要解析的字段。

步骤 2 [可选]:调整解析 schema

此步骤可让你微调解析 schema,以更好地满足需求或排查问题。

解析 schema 概览

此表展示了 AI 用于生成解析说明的输入。schema 定义了需要解析哪些字段,并由多种对象类型组成(见下方 )。

schema 中的每个项都必须包含:

  • 名称:这将用作解析说明中的对象键,并在解析数据中可见。

  • 说明 (可选但建议):有助于提高解析准确性。

schema 调整

  • 重新排序项目:使用左侧的点拖放项目以更改顺序(只有同一嵌套层级中的项目可以移动)。

  • 编辑项目:点击编辑图标可修改任意字段。

  • 删除项目:你可以删除父级中的任意项目。

  • 添加新项目:向父级添加新项目。

更新 schema 后,点击 “刷新输出” 按钮以重新生成说明并预览解析数据。

对象类型说明

对象类型
说明
解析数据示例

字符串

单个文本输出

“title”: “示例商品标题”

数字

单个数字

“price”: 9.99

字符串数组

文本输出列表

“products”: [“商品 1”, “商品 2”, “商品 3”]

数字数组

数字列表

“pages”: [1, 2, 3]

对象数组

对象/项列表,每个项内部都有自己的对象(_items 块在解析说明中)

使用对象数组

  1. 选择“对象数组”:此选项会添加一个子对象和按钮。

  1. 填写对象名称:要将该项保存到 schema 中,必须填写父对象和子对象的名称。完成后,勾选标记将变为绿色。

  1. 子对象要求:一个“对象数组”至少必须包含一个子对象。

测试说明

默认情况下,解析数据基于 步骤 1中提供的第一个 URL。你也可以提供不同的 URL 来测试解析说明:

步骤 3:复制/保存说明并集成到抓取任务中

一旦说明令人满意:

  • 使用 “复制” 按钮复制说明并将其粘贴到你的爬虫代码中。

  • 或者,将说明保存到你的网页爬虫API Playground 会话中,调整其他请求参数,进行测试,然后以你偏好的编程语言复制完整的请求代码。

示例

URL

提示

解析 schema

对象类型
名称*
说明

字符串

product_title

产品标题

数字

price

产品价格

字符串数组

related_products

主产品信息下方的相关产品标题

解析说明

解析数据

通过 API 生成解析说明

如果你想生成大量不同的解析说明集,以覆盖你所处理的各种网站,你可以通过 API 构建解析说明——查看 解析说明生成器 API 了解其实现方式。

浏览器指令构建器

你可以使用 OxyCopilot 构建复杂的页面交互脚本,而无需分析站点结构或手动为你的 浏览器指令.

工作原理

步骤 1:提供 URL 和提示

  • URL: 请提供一个单独的 URL,用于生成浏览器指令。OxyCopilot 会使用所提供 URL 的 HTML 来确定如何编写你所需的网页交互脚本。

  • 提示: 提示对于构建浏览器指令至关重要。请清楚说明页面打开后希望执行哪些操作(例如:“滚动到页面底部,等待“下一页”按钮加载,点击“下一页”按钮”)。

步骤 2 [可选]:调整浏览器指令

此步骤可让你微调浏览器指令序列,以更好地满足需求或排查问题。

浏览器指令概览

OxyCopilot 完成处理你的输入后,会显示其创建的浏览器指令序列。

你可以通过编辑、添加或删除步骤来调整该序列。

步骤 3:复制/保存说明并集成到抓取任务中

一旦说明令人满意,你可以将说明保存到你的网页爬虫API Playground 会话中,调整其他请求参数,进行测试,然后以你偏好的编程语言复制完整的请求代码。

最后更新于

这有帮助吗?