解析器预设
了解解析器预设如何工作,以及如何在抓取任务中使用它们。
您可以 保存, 复用、 修改 通过网页爬虫API使用自定义解析说明。创建解析器预设后,我们会将其托管在我们的系统中,使您能够在抓取任务中通过 parser_preset 负载中的参数来引用它。
此功能提供若干 关键能力:
在我们的系统中保存和管理您自己的解析器
轻松在多个抓取任务中复用预设
创建、检索、更新、删除以及列出所有预设
访问预设的性能和使用统计
使用自愈预设适应不断变化的网站
API 参考
端点: https://data.oxylabs.io/v1/parsers/presets
下表列出了每个可用操作及其端点路径:
创建 一个预设
POST
/v1/parsers/presets
检索 一个预设
GET
/v1/parsers/presets/{preset_name}
更新 一个预设
PUT
/v1/parsers/presets/{preset_name}
删除 一个预设
DELETE
/v1/parsers/presets/{preset_name}
列出所有 预设
GET
/v1/parsers/presets
查看使用情况 和 性能 统计
GET
/v1/parsers/presets/{preset_name}/stats
跟踪自愈 变更
GET
/v1/parsers/presets/{parser_name}/changelog
启用自愈
解析器预设配备了自愈功能,这有助于在网站发生变化时维护解析器及其成功率。启用后,解析器预设 会自动自行修复 并在后台调整解析说明,无需额外手动输入。
要 要为您的自定义解析器预设 启用自愈,在创建或更新预设时请包含以下必填参数:
self_heal
设置为时将开启自愈功能 True.
prompt_schema
描述所需解析器输出的 JSON schema。您可以在 使用 API 生成解析器时自动创建该 schema.
urls
最多包含 5 个相同页面类型的 URL 列表。我们建议提供 3-5 个 URL,以帮助解析器适应不同布局并提高解析准确性。
使用示例
创建一个预设
端点: POST https://data.oxylabs.io/v1/parsers/presets
负载:
使用一个预设
端点: POST https://realtime.oxylabs.io/v1/queries
负载:
检索一个预设
端点: GET https://data.oxylabs.io/v1/parsers/presets/{preset_name}
更新一个预设
端点: PUT https://data.oxylabs.io/v1/parsers/presets/{preset_name}
定义您想要更新的预设字段。在以下示例中,只有 parsing_instructions 会被更新。
负载:
删除一个预设
端点: DELETE https://data.oxylabs.io/v1/parsers/presets/{preset_name}
列出所有预设
端点: GET https://data.oxylabs.io/v1/parsers/presets
查看统计
端点: GET https://data.oxylabs.io/v1/parsers/presets/{preset_name}/stats
您可以 按日期和时间筛选结果 使用 date_from 和/或 date_to URL 参数。请使用以下格式 YYYY-MM-DDTHH,其中 T 表示时间,而 HH 表示 24 小时制中的小时。
例如,要获取 2025 年 8 月 5 日上午 9 点到下午 2 点的统计数据:
跟踪自愈变更
端点: GET https://data.oxylabs.io/v1/parsers/presets/{preset_name}/changelog
我们的系统会自动记录自愈活动。您可以访问此历史日志,以查看自愈功能所做的所有修改。
最后更新于
这有帮助吗?

