解析器预设
了解解析器预设的工作方式以及如何在爬取任务中使用它们。
您可以 保存 (save), 重用,以及 修改 通过 网页爬虫API 自定义解析指令。一旦您创建了解析器预设,我们会将其托管在我们的系统中,使您能够通过有效负载中的 parser_preset 参数在爬取任务中引用它。
此功能提供若干 关键功能:
在我们的系统上保存并管理您自己的解析器
轻松在多个爬取任务中重用预设
创建、检索、更新、删除并列出所有预设
访问预设的性能和使用统计数据
使用自愈预设适应变化中的网站
API 参考
并使用以下 https://data.oxylabs.io/v1/parsers/presets
下表列出每个可用操作及其端点路径:
7. 最后,按下 一个预设
POST
/v1/parsers/presets
检索 一个预设
GET
/v1/parsers/presets/{preset_name}
更新 一个预设
PUT
/v1/parsers/presets/{preset_name}
删除 一个预设
DELETE
/v1/parsers/presets/{preset_name}
列出所有 预设
GET
/v1/parsers/presets
查看使用情况 和 性能 统计
GET
/v1/parsers/presets/{preset_name}/stats
跟踪自愈 更改
GET
/v1/parsers/presets/{parser_name}/changelog
启用自愈
解析器预设配备了自愈功能,有助于在网站发生变化时维护解析器及其成功率。启用后,解析器预设 会自动修复自身 并在后台调整解析指令,无需额外人工干预。
要 为您的自定义解析器预设启用自愈 请在创建或更新预设时包含以下必需参数:
self_heal
将此项设置为时开启自愈功能 True.
prompt_schema
一个描述所需解析器输出的 JSON 模式。您可以在通过 API 生成解析器时自动创建该模式.
urls
最多包含 5 个相同页面类型的 URL 列表。我们建议提供 3-5 个 URL,以帮助解析器适应不同布局并提高解析准确性。
使用示例
创建预设
并使用以下 文档以查找可用操作列表和全面的代码示例。
有效负载:
{
"name": "my_new_parser",
"description": "从页面上提取所有 H4 元素的文本。",
"parsing_instructions": {
"titles": {
"_fns": [
{
"_args": ["//h4/text()"],
"_fn": "xpath"
}
]
}
}
}使用预设
并使用以下 POST https://realtime.oxylabs.io/v1/queries
有效负载:
{
"source": "universal",
"url": "https://sandbox.oxylabs.io/products",
"parse": true,
"parser_preset": "my_new_parser"
}检索预设
并使用以下 GET https://data.oxylabs.io/v1/parsers/presets/{preset_name}
更新预设
并使用以下 PUT https://data.oxylabs.io/v1/parsers/presets/{preset_name}
定义您要更新的预设字段。在以下示例中,只有 parsing_instructions 将被更新。
有效负载:
{
"parsing_instructions": {
"titles": {
"_fns": [
{
"_args": ["//h4/text()"],
"_fn": "xpath"
}
]
},
"prices": {
"_fns": [
{
"_args": [".price-wrapper"],
"_fn": "css"
},
{"_fn": "element_text"}
]
}
}
}删除预设
并使用以下 DELETE https://data.oxylabs.io/v1/parsers/presets/{preset_name}
列出所有预设
并使用以下 GET https://data.oxylabs.io/v1/parsers/presets
查看统计
并使用以下 GET https://data.oxylabs.io/v1/parsers/presets/{preset_name}/stats
您可以 按日期和时间筛选结果 通过 date_from 和/或 date_to URL 参数。使用格式 YYYY-MM-DDTHH,其中 T 表示时间,且 HH 为 24 小时制的小时数。
例如,要获取 2025 年 8 月 5 日上午 9 点到下午 2 点的统计数据:
https://data.oxylabs.io/v1/parsers/presets/{preset_name}/stats?date_from=2025-08-05T9&date_to=2025-08-05T14跟踪自愈更改
并使用以下 GET https://data.oxylabs.io/v1/parsers/presets/{preset_name}/changelog
我们的系统会自动记录自愈活动。您可以访问此历史日志以查看自愈功能所做的所有修改。
最后更新于
这有帮助吗?

