OxyCopilot

使用 OxyCopilot 自动化抓取。了解如何使用简单的自然语言提示生成 Web Scraper API 有效载荷、自定义解析器和浏览器指令。

OxyCopilot 是一个免费 网页爬虫 API 功能,可简化入门流程,帮助用户为复杂用例找到有效解决方案,而无需编码知识。OxyCopilot 当前包含三个独立功能:

爬虫生成器

OxyCopilot 帮助您为 Web Scraper API 配置爬虫(并形成请求载荷),无需理解文档或字段逻辑。

工作原理

步骤 1:提供 URL 和提示

  • URL: 提供您想要抓取的 URL。

  • 提示: 描述您的需求(例如,本地化、JS 渲染等)。

步骤 2:解析

您有三种处理解析的选项:

  1. 自定义解析器:选择“添加解析指令”以使用 自定义解析器生成器.

  2. 专用解析器:如果该 URL 来自我们为其提供专用解析器的网站且您想使用它,请选择“继续使用专用解析器”。

  3. 不解析:如果不需要结构化数据,则选择继续而不解析。

如果我们没有专用解析器
如果我们有专用解析器

步骤 3:查看请求

基于您的提示,OxyCopilot 会在 Web Scraper API Playground 中预填必要参数。您将看到针对您的用例的具体请求代码和参数,并可根据需要调整参数。

步骤 4:提交请求并复制

如果一切正常,提交请求以查看输出并检查其是否按预期工作。然后,复制请求代码以在后续使用 Web Scraper API 的抓取任务中使用。

示例

URL

提示

AI 生成的参数(JSON)

AI 生成的请求代码

自定义解析器生成器

利用 自定义解析器 功能与 OxyCopilot 一起构建解析器,而无需编写代码或手动分析网站结构。

工作原理

步骤 1:提供 URL(可多个)和提示

  • URL(可多个): 您最多可以提供 3 个 URL 用于生成解析指令。OxyCopilot 使用所提供 URL 的 HTML 来确定提取所需字段的最佳逻辑。

您提供的 URL 越多,解析指令越健壮,因为 OxyCopilot 会识别相似页面之间的常见模式。请注意,添加更多 URL 可能会增加等待结果的时间。

  • 提示: 提示是构建自然语言模式的关键组成部分,该模式作为生成实际解析指令的基础。提示应清楚描述需要解析的字段。

步骤 2(可选):调整解析模式

此步骤允许您微调解析模式以更好地满足需求或排查问题。

解析模式概览

此表可视化 AI 用于生成解析指令的输入。该模式定义了需要解析的字段,并由各种对象类型组成(在下文的 表格 中解释)。

模式中的每个项必须包含:

  • 名称:这将用作解析指令中的对象键,并在解析数据中可见。

  • 说明 (可选但推荐):有助于提高解析准确性。

模式调整

  • 重新排序项目:使用左侧的点拖放项目以更改其顺序(只能移动同一嵌套层级内的项目)。

  • 编辑项目:点击编辑图标以修改任何字段。

  • 删除项目:您可以删除父级层的任何项目。

  • 添加新项目:向父级层添加新项目。

更新模式后,点击 “刷新输出” 按钮以重新生成指令并预览解析数据。

对象类型说明

对象类型
说明
解析数据示例

字符串

单个文本输出

“title”: “示例产品标题”

数字

单个数字

“price”: 9.99

字符串数组

文本输出列表

“products”: [“product 1”, “product 2”, “product 3”]

数字数组

数字列表

“pages”: [1, 2, 3]

对象数组

对象/项的列表,每个项内部有自己的对象(在解析指令中为_items 块)

处理对象数组

  1. 选择“对象数组”:此选项会添加一个子对象和按钮。

  1. 填写对象名称:要将该项保存到模式,您必须填写父对象和子对象的名称。完成后,勾选标记会变为绿色。

  1. 子对象要求:一个“对象数组”必须至少有一个子对象。

测试指令

默认情况下,解析数据基于在 步骤 1中提供的第一个 URL。您也可以提供不同的 URL 来测试解析指令:

步骤 3:复制/保存指令并集成到抓取任务中

一旦指令令人满意:

  • 使用 “复制” 按钮以复制指令并将其粘贴到您的爬虫代码中。

  • 或者,将指令保存到您的 Web Scraper API Playground 会话,调整其他请求参数,进行测试,然后以您偏好的编程语言复制完整的请求代码。

示例

URL

提示

解析模式

对象类型
名称*
说明

字符串

product_title

产品标题

数字

价格

产品价格

字符串数组

related_products

主产品信息下方的相关产品标题

解析指令

解析数据

通过 API 生成解析指令

如果您希望为所处理的多样网站生成大量不同的解析指令集,可以通过 API 构建解析指令 —— 参见 解析指令生成器 API 了解具体实现方法。

浏览器指令生成器

您可以使用 OxyCopilot 构建复杂的页面交互脚本,而无需分析站点结构或手动为您的 浏览器指令.

工作原理

步骤 1:提供 URL 和提示

  • URL: 请提供单个 URL 以生成浏览器指令。OxyCopilot 使用所提供 URL 的 HTML 来确定如何为您所需的网页交互生成脚本。

  • 提示: 提示对构建浏览器指令至关重要。请明确说明在页面打开后希望执行的操作(例如“滚动到底部,等待‘下一页’按钮加载,然后点击‘下一页’按钮”)。

步骤 2(可选):调整浏览器指令

此步骤允许您微调浏览器指令序列以更好地满足需求或排查问题。

浏览器指令概览

一旦 OxyCopilot 处理完您的输入,它会展示已创建的浏览器指令序列。

您可以通过编辑、添加或删除步骤来调整该序列。

步骤 3:复制/保存指令并集成到抓取任务中

一旦指令令人满意,您可以将指令保存到 Web Scraper API Playground 会话中,调整其他请求参数,进行测试,然后以您偏好的编程语言复制完整的请求代码。

最后更新于

这有帮助吗?