OxyCopilot
使用 OxyCopilot 自动化抓取。了解如何使用简单的自然语言提示生成 Web Scraper API 有效载荷、自定义解析器和浏览器指令。
OxyCopilot 是一个免费 网页爬虫 API 功能,可简化入门流程,帮助用户为复杂用例找到有效解决方案,而无需编码知识。OxyCopilot 当前包含三个独立功能:
爬虫生成器
自定义解析器 生成器
浏览器指令生成器
OxyCopilot 可在 网页 Scraper API Playground 的 Oxylabs 仪表板中访问。
爬虫生成器
OxyCopilot 帮助您为 Web Scraper API 配置爬虫(并形成请求载荷),无需理解文档或字段逻辑。
工作原理
步骤 1:提供 URL 和提示
URL: 提供您想要抓取的 URL。
提示: 描述您的需求(例如,本地化、JS 渲染等)。

步骤 2:解析
您有三种处理解析的选项:
自定义解析器:选择“添加解析指令”以使用 自定义解析器生成器.
专用解析器:如果该 URL 来自我们为其提供专用解析器的网站且您想使用它,请选择“继续使用专用解析器”。
不解析:如果不需要结构化数据,则选择继续而不解析。
如果该 URL 属于我们有专用解析器的网站,但您不需要结构化数据,请选择“继续使用专用解析器”并在 playground 的设置中禁用 parse 参数。请避免使用退出按钮,因为它不会保存预填参数。


步骤 3:查看请求
基于您的提示,OxyCopilot 会在 Web Scraper API Playground 中预填必要参数。您将看到针对您的用例的具体请求代码和参数,并可根据需要调整参数。
步骤 4:提交请求并复制
如果一切正常,提交请求以查看输出并检查其是否按预期工作。然后,复制请求代码以在后续使用 Web Scraper API 的抓取任务中使用。
示例
URL
提示
AI 生成的参数(JSON)
AI 生成的请求代码

自定义解析器生成器
利用 自定义解析器 功能与 OxyCopilot 一起构建解析器,而无需编写代码或手动分析网站结构。
工作原理
步骤 1:提供 URL(可多个)和提示
URL(可多个): 您最多可以提供 3 个 URL 用于生成解析指令。OxyCopilot 使用所提供 URL 的 HTML 来确定提取所需字段的最佳逻辑。
提示: 提示是构建自然语言模式的关键组成部分,该模式作为生成实际解析指令的基础。提示应清楚描述需要解析的字段。

步骤 2(可选):调整解析模式
此步骤允许您微调解析模式以更好地满足需求或排查问题。
解析模式概览

此表可视化 AI 用于生成解析指令的输入。该模式定义了需要解析的字段,并由各种对象类型组成(在下文的 表格 中解释)。
模式中的每个项必须包含:
名称:这将用作解析指令中的对象键,并在解析数据中可见。
说明 (可选但推荐):有助于提高解析准确性。
模式调整
重新排序项目:使用左侧的点拖放项目以更改其顺序(只能移动同一嵌套层级内的项目)。
编辑项目:点击编辑图标以修改任何字段。
删除项目:您可以删除父级层的任何项目。
添加新项目:向父级层添加新项目。
更新模式后,点击 “刷新输出” 按钮以重新生成指令并预览解析数据。
对象类型说明
字符串
单个文本输出
“title”: “示例产品标题”
数字
单个数字
“price”: 9.99
字符串数组
文本输出列表
“products”: [“product 1”, “product 2”, “product 3”]
数字数组
数字列表
“pages”: [1, 2, 3]
对象数组
对象/项的列表,每个项内部有自己的对象(在解析指令中为_items 块)
处理对象数组
选择“对象数组”:此选项会添加一个子对象和按钮。
填写对象名称:要将该项保存到模式,您必须填写父对象和子对象的名称。完成后,勾选标记会变为绿色。
子对象要求:一个“对象数组”必须至少有一个子对象。
测试指令
默认情况下,解析数据基于在 步骤 1中提供的第一个 URL。您也可以提供不同的 URL 来测试解析指令:

指令是基于初始 URL 生成的,不会考虑测试 URL。编辑提示或 URL 会重置模式,需要完整重新生成。
步骤 3:复制/保存指令并集成到抓取任务中
一旦指令令人满意:
使用 “复制” 按钮以复制指令并将其粘贴到您的爬虫代码中。
或者,将指令保存到您的 Web Scraper API Playground 会话,调整其他请求参数,进行测试,然后以您偏好的编程语言复制完整的请求代码。

示例
URL
提示
解析模式
字符串
product_title
产品标题
数字
价格
产品价格
字符串数组
related_products
主产品信息下方的相关产品标题
解析指令
解析数据
通过 API 生成解析指令
如果您希望为所处理的多样网站生成大量不同的解析指令集,可以通过 API 构建解析指令 —— 参见 解析指令生成器 API 了解具体实现方法。
浏览器指令生成器
您可以使用 OxyCopilot 构建复杂的页面交互脚本,而无需分析站点结构或手动为您的 浏览器指令.
工作原理
步骤 1:提供 URL 和提示
URL: 请提供单个 URL 以生成浏览器指令。OxyCopilot 使用所提供 URL 的 HTML 来确定如何为您所需的网页交互生成脚本。
提示: 提示对构建浏览器指令至关重要。请明确说明在页面打开后希望执行的操作(例如“滚动到底部,等待‘下一页’按钮加载,然后点击‘下一页’按钮”)。

步骤 2(可选):调整浏览器指令
此步骤允许您微调浏览器指令序列以更好地满足需求或排查问题。
浏览器指令概览

一旦 OxyCopilot 处理完您的输入,它会展示已创建的浏览器指令序列。
您可以通过编辑、添加或删除步骤来调整该序列。
步骤 3:复制/保存指令并集成到抓取任务中
一旦指令令人满意,您可以将指令保存到 Web Scraper API Playground 会话中,调整其他请求参数,进行测试,然后以您偏好的编程语言复制完整的请求代码。

我们欢迎您提供反馈和改进建议。如有疑问,请随时通过 [email protected] 或通过我们的 24/7 在线聊天支持与我们联系。
最后更新于
这有帮助吗?

