自定义解析器 (Custom Parser)
自定义解析器是一个免费的爬虫API功能,可以让您定义自己的解析和数据处理逻辑,并在原始抓取结果上执行。
您可以使用CSS和XPath选择器来选择HTML DOM中的一个对象。
如需使用自定义解析器,只需在提交作业时发送一个带有说明的JSON对象:
如果您正在使用XPath选择器:
您可以方便地使用XPath的text()
函数,它可以提取选定节点的文本值。
如果您使用CSS选择器,则您必须把两个函数串起来:第一个函数将选择h1元素,而第二个函数将提取其文本:
结果将是这样的:
在这里查看现有的解析和数据转换功能列表,在这里查看指令实例。
获得解析任务的HTML内容
您可以通过在结果检索URL末尾处添加 ?type=raw
来获得原始HTML结果。点此了解更多。
Last updated