For the complete documentation index, see llms.txt. This page is also available as Markdown.

自定义解析器

查看使用 Oxylabs 自定义解析器 快速开始的步骤。

自定义解析器是网页爬虫API的一项免费功能,让您能够 创建解析和数据处理逻辑 该逻辑会在原始 HTML 结果上执行。您可以使用 AI 自动生成解析器,也可以针对高级场景手动编写。

有关详细说明和示例,请参阅以下页面:

开始使用 通过 API 生成解析器 解析器预设

手动编写指令 解析函数列表


快速开始

1. 生成解析器

我们建议您从我们的 AI 驱动 OxyCopilot 工具开始,它让您无需编写任何代码即可生成爬虫和解析器。/bu

按照视频中显示的步骤来 生成解析器:

以下是视频中展示的相同步骤:

  1. 输入 URL 即您想要抓取和解析的

  2. 指定任何参数 例如 JavaScript 渲染

  3. 编写提示词 描述您想要解析的内容

  4. 运行 OxyCopilot

当您对生成的解析器满意后,加载指令。

2. 将解析器保存为预设

您可以通过 OxyCopilot 轻松保存生成的解析器以供后续使用。请参阅以下步骤:

  1. 将预设分配 给特定的 API 用户

  2. 点击 保存

  3. 输入预设名称 以及说明(可选)

保存预设后,您可以在 API 请求中使用它。

3. 在 API 请求中使用解析器

要在网页爬虫API中使用您的预设,请发送一个负载,并将 parser_preset 参数设置为您的预设名称。在下面的代码示例中,我们将复用 example_parser 这是在前面步骤中创建的预设。

输出示例

获取已解析任务的 HTML 内容

您也可以通过添加 ?type=raw 到结果获取 URL 的末尾来检索原始 HTML 结果。阅读更多 此处.

最后更新于

这有帮助吗?