Documentation has been updated: see help center and changelog in one place.

自定义解析器 (Custom Parser)

查看 Oxylabs 自定义解析器的快速入门步骤。

自定义解析器是一个免费的 网页爬虫API 功能,可让你 创建解析和数据处理逻辑 这些逻辑在原始 HTML 结果上执行。你可以使用 AI 自动生成解析器,或在高级场景中手动编写它们。

有关详细说明和示例,请参阅以下页面:

快速开始 通过 API 生成解析器 解析器预设

手动编写指令 解析函数列表


快速开始

1. 生成解析器

我们建议从我们由 AI 驱动的 OxyCopilot 工具开始,该工具允许你在不编写任何代码的情况下生成爬虫和解析器。

按照视频中展示的步骤来 生成解析器:

以下是视频中展示的相同步骤:

  1. 输入你想要抓取和解析的 URL(或多个 URL)

  2. 指定任何参数 例如 JavaScript 渲染

  3. 编写一个提示 描述你想要解析的内容

  4. 运行 OxyCopilot

当你对生成的解析器满意后,加载指令。

2. 将解析器保存为预设

你可以通过 OxyCopilot 轻松保存生成的解析器以便日后使用。参见以下步骤:

  1. 将预设分配 到特定的 API 用户

  2. 点击 保存 (Save)

  3. 输入预设名称 以及描述(可选)

保存预设后,你可以在 API 请求中使用它。

3. 在 API 请求中使用解析器

要在 网页爬虫API 中使用你的预设,请发送包含 parser_preset 参数且其值为你的预设名称的请求载荷。在下面的代码示例中,我们重用之前步骤中创建的 example_parser 预设。

curl 'https://realtime.oxylabs.io/v1/queries' \
--user 'USERNAME:PASSWORD' \
-H 'Content-Type: application/json' \
-d '{
        "source": "universal",
        "url": "https://example.com/",
        "parse": true,
        "parser_preset": "example_parser"
    }'
输出示例
{
  "results": [
    {
      "content": {
        "title": "Example Domain",
        "parse_status_code": 12000
      },
      "created_at": "2025-10-24 10:04:59",
      "updated_at": "2025-10-24 10:05:00",
      "page": 1,
      "url": "https://example.com/",
      "job_id": "7387428891226308609",
      "is_render_forced": false,
      "status_code": 200,
      "type": "parsed",
      "parser_type": "preset",
      "parser_preset": "example_parser"
    }
  ]
}

获取已解析任务的 HTML 内容

你也可以通过在结果检索 URL 末尾添加 ?type=raw 来检索原始 HTML 结果。阅读更多 此处.

最后更新于

这有帮助吗?