解析器预设

了解解析器预设如何工作以及如何在抓取任务中使用它们。

你可以 保存, 重用,和 修改 通过网页爬虫 API 保存自定义解析指令。一旦你创建了解析器预设,我们会将其托管在系统上,使你能够通过有效载荷中的 parser_preset 参数在爬取任务中引用它。

此功能提供若干 关键功能:

  • 在我们系统上保存并管理你自己的解析器

  • 在多个爬取任务中轻松重用预设

  • 创建、检索、更新、删除并列出所有预设

  • 访问预设的性能和使用统计数据

  • 使用自愈预设适应不断变化的网站

API 参考

端点: https://data.oxylabs.io/v1/parsers/presets

下表列出每个可用操作及其端点路径:

动作
请求方法
路径

创建 一个预设

POST

/v1/parsers/presets

检索 一个预设

GET

/v1/parsers/presets/{preset_name}

更新 一个预设

PUT

/v1/parsers/presets/{preset_name}

删除 一个预设

DELETE

/v1/parsers/presets/{preset_name}

列出所有 预设

GET

/v1/parsers/presets

查看使用情况性能 统计

GET

/v1/parsers/presets/{preset_name}/stats

跟踪自愈 更改

GET

/v1/parsers/presets/{parser_name}/changelog

启用自愈

解析器预设配备自愈功能,可在网站发生变化时帮助维护解析器及其成功率。启用后,解析器预设 会自动修复自身 并在后台调整解析指令,无需额外人工输入。

为你的自定义解析器预设启用自愈 在创建或更新预设时包含以下必需参数:

参数
描述

self_heal

将自愈功能开启,设置为 True.

prompt_schema

描述所需解析器输出的 JSON 模式。当使用 通过 API 生成解析器时,可自动创建该模式.

urls

最多包含 5 个相同页面类型的 URL 列表。我们建议提供 3-5 个 URL,以帮助解析器适应不同布局并提高解析准确性。

chevron-right有效载荷示例hashtag

此处示例有效载荷通过更新现有预设来启用自愈。

端点: PUT https://data.oxylabs.io/v1/parsers/presets/{preset_name}

使用示例

创建一个预设

端点: POST https://data.oxylabs.io/v1/parsers/presets

有效载荷:

chevron-right输出hashtag

使用预设

端点: POST https://realtime.oxylabs.io/v1/queries

有效载荷:

chevron-right输出hashtag

检索一个预设

端点: GET https://data.oxylabs.io/v1/parsers/presets/{preset_name}

chevron-right输出hashtag

更新一个预设

端点: PUT https://data.oxylabs.io/v1/parsers/presets/{preset_name}

定义你要更新的预设字段。在下面的示例中,只有 parsing_instructions 将被更新。

有效载荷:

chevron-right输出hashtag

删除一个预设

端点: DELETE https://data.oxylabs.io/v1/parsers/presets/{preset_name}

列出所有预设

端点: GET https://data.oxylabs.io/v1/parsers/presets

chevron-right输出hashtag

查看统计

端点: GET https://data.oxylabs.io/v1/parsers/presets/{preset_name}/stats

chevron-right输出hashtag

你可以 按日期和时间筛选结果 使用 date_from 和/或 date_to URL 参数。使用格式 YYYY-MM-DDTHH,其中 T 表示时间,且 HH 为 24 小时制的小时数。

例如,要获取 2025 年 8 月 5 日上午 9 点到下午 2 点的统计信息:

跟踪自愈更改

端点: GET https://data.oxylabs.io/v1/parsers/presets/{preset_name}/changelog

我们的系统会自动记录自愈活动。你可以访问此历史日志以查看自愈功能所做的所有修改。

最后更新于

这有帮助吗?