Oxylabs Documentation
中文
搜索
K

自定义解析器 (Custom Parser)

自定义解析器是一个免费的爬虫API功能,可以让您定义自己的解析和数据处理逻辑,并在原始抓取结果上执行。
您可以使用CSS和XPath选择器来选择HTML DOM中的一个对象。
如需使用自定义解析器,只需在提交作业时发送一个带有说明的JSON对象:
如果您正在使用XPath选择器:
{
"source": "universal_ecommerce",
"url": "https://example.com",
"parse": true,
"parsing_instructions": {
"title": {
"_fns": [
{
"_fn": "xpath_one",
"_args": ["//h1/text()"]
}
]
}
}
}
您可以方便地使用XPath的text()函数,它可以提取选定节点的文本值。
如果您使用CSS选择器,则您必须把两个函数串起来:第一个函数将选择h1元素,而第二个函数将提取其文本:
{
"source": "universal_ecommerce",
"url": "https://example.com",
"parse": true,
"parsing_instructions": {
"title": {
"_fns": [
{"_fn": "css_one", "_args": ["body > div:nth-child(1) > h1"]},
{"_fn": "element_text"}
]
}
}
}
结果将是这样的:
{
"results": [
{
"content": {
"title": "Example Domain",
"parse_status_code": 12000
},
"created_at": "2023-03-23 14:47:49",
"updated_at": "2023-03-23 14:47:58",
"page": 1,
"url": "https://example.com",
"job_id": "7044681146457663489",
"status_code": 200
}
]
}
这里查看现有的解析和数据转换功能列表,在这里查看指令实例。

获得解析任务的HTML内容

您可以通过在结果检索URL末尾处添加 ?type=raw 来获得原始HTML结果。点此了解更多。