自定义解析器 (Custom Parser)

自定义解析器是一个免费的爬虫API功能,可以让您定义自己的解析和数据处理逻辑,并在原始抓取结果上执行。

您可以使用CSS和XPath选择器来选择HTML DOM中的一个对象。

如需使用自定义解析器,只需在提交作业时发送一个带有说明的JSON对象:

如果您正在使用XPath选择器:

{
  "source": "universal_ecommerce",
  "url": "https://example.com",
  "parse": true,
  "parsing_instructions": {
      "title": {
          "_fns": [
              {
                  "_fn": "xpath_one",
                  "_args": ["//h1/text()"]
              }
          ]
      }
  }
}

您可以方便地使用XPath的text()函数,它可以提取选定节点的文本值。

如果您使用CSS选择器,则您必须把两个函数串起来:第一个函数将选择h1元素,而第二个函数将提取其文本:

{
    "source": "universal_ecommerce",
    "url": "https://example.com",
    "parse": true,
    "parsing_instructions": {
        "title": {
            "_fns": [
                {"_fn": "css_one", "_args": ["body > div:nth-child(1) > h1"]},
                {"_fn": "element_text"}
            ]
        }
    }
}

结果将是这样的:

{
    "results": [
        {
            "content": {
                "title": "Example Domain",
                "parse_status_code": 12000
            },
            "created_at": "2023-03-23 14:47:49",
            "updated_at": "2023-03-23 14:47:58",
            "page": 1,
            "url": "https://example.com",
            "job_id": "7044681146457663489",
            "status_code": 200
        }
    ]
}

这里查看现有的解析和数据转换功能列表,在这里查看指令实例。

获得解析任务的HTML内容

您可以通过在结果检索URL末尾处添加 ?type=raw 来获得原始HTML结果。点此了解更多。

Last updated