For the complete documentation index, see llms.txt. This page is also available as Markdown.

解析函数列表

查看 自定义解析器 支持的完整函数列表:正则、XPath、CSS 等。

您可以在以下位置找到每个函数的使用示例: 解析函数示例 页面。

HTML 处理

element_text

  • 名称: element_text

  • 说明:从 html中提取文本。去除首尾空白字符。

  • 参数:不适用

  • 有效输入类型: html

  • 预期输出类型: str

xpath

  • 名称: xpath

  • 说明:对给定的输入值执行 XPath 表达式。如果执行未生成结果,则使用数组中的下一个表达式。表达式中可使用 XSLT 函数。支持 XPath 1.0 版本。支持 XSLT 1.0 版本。

  • 参数:

    • xpath_expressions

      • 类型: [str]

      • 必需: true

  • 有效输入类型:

    • html

  • 预期输出类型:

    • [str]

    • [html]

    • str

    • float

    • bool

xpath_one

  • 名称: xpath_one

  • 说明:工作方式与 xpath相同,但即使提供的 XPath 选中了多个值,也只返回第一个值。

  • 参数:

    • xpath_expressions

      • 类型: [str]

      • 必需: true

  • 有效输入类型:

    • html

  • 预期输出类型:

    • str

    • html

    • str

    • float

    • bool

css

  • 名称: css

  • 说明:对给定的输入值执行 CSS 表达式。如果执行未生成结果,则使用数组中的下一个表达式。 请注意, css 函数的输出始终是一个包含 HTML 元素的 JSON 数组(包括开始和结束标签)。如果您想提取元素内容,可以随后执行 element_text 函数。

  • 参数:

    • css_expressions

      • 类型: [str]

      • 必需: true

  • 有效输入类型:

    • html

  • 预期输出类型:

    • [html_element]

css_one

  • 名称: css_one

  • 说明:工作方式与 css,但即使提供的 CSS 表达式选中了多个值,也只返回第一个值。 请注意, css_one 函数的输出始终是一个 HTML 元素(包括开始和结束标签)。如果您想提取元素内容,可以随后执行 element_text 函数。

  • 参数:

    • css_expressions

      • 类型: [str]

      • 必需: true

  • 有效输入类型:

    • html

  • 预期输出类型:

    • html_element

字符串操作

amount_from_string

  • 名称: amount_from_string

  • 说明:查找字符串中首次出现的数值,并将其转换为浮点数。

  • 参数:不适用

  • 有效输入类型:

    • str

  • 预期输出类型:

    • float

amount_range_from_string

  • 名称: amount_range_from_string

  • 说明:查找字符串中所有出现的数值,并将其转换为浮点数。

  • 参数:不适用

  • 有效输入类型:

    • str

  • 预期输出类型:

    • [float]

join

  • 名称: join

  • 说明:将字符串列表合并为一个字符串。合并后的值之间由 separator 值分隔。

  • 参数:

    • separator

      • 类型: str

      • 必需: false

      • 默认值: ""

  • 有效输入类型:

    • [str]

  • 预期输出类型:

    • str

regex_find_all

  • 名称: regex_find_all

  • 说明:查找所有与给定正则表达式匹配的字符串。

  • 参数:

    • regex_pattern

      • 类型: str

      • 必需: true

  • 有效输入类型:

    • str

  • 预期输出类型:

    • [str]

  • 名称: regex_search

  • 说明:查找与给定正则表达式匹配的字符串。返回指定的匹配组(默认是 0).

  • 参数:

    • regex_pattern

      • 类型: str

      • 必需: true

    • group_to_return

      • 类型: int

      • 必需: false

      • 默认值: 0

  • 有效输入类型:

    • str

  • 预期输出类型:

    • str

regex_substring

  • 名称: regex_substring

  • 说明:查找与给定正则表达式匹配的字符串。返回指定的匹配组(默认是 0).

  • 参数:

    • regex_pattern

      • 类型: str

      • 必需: true

    • group_to_return

      • 类型: int

      • 必需: false

      • 默认值: 0

  • 有效输入类型:

    • str

  • 预期输出类型:

    • str

通用

长度

  • 名称: 长度

  • 说明:获取数组的长度。如果输入的是多维数组,该函数将作用于最内层数组。

  • 参数:不适用

  • 有效输入类型:

    • [OneDimensionalArray]

  • 预期输出类型:

    • int

select_nth

  • 名称: select_nth

  • 说明:返回第 n 个数组元素。使用从 0 开始的索引。支持负索引以选择数组中的倒数第一个(-1)、倒数第二个(-2)……项。

  • 参数:

    • index

      • 类型: int

      • 必需: true

  • 有效输入类型:

    • [AnyType]

  • 预期输出类型:

    • AnyType

convert_to_float

  • 名称: convert_to_float

  • 说明:将字符串或整数转换为浮点数。

  • 参数:不适用

  • 有效输入类型:

    • str

    • int

  • 预期输出类型:

    • float

convert_to_int

  • 名称: convert_to_int

  • 说明:将字符串或浮点数转换为整数。

  • 参数:不适用

  • 有效输入类型:

    • str

    • float

  • 预期输出类型:

    • int

convert_to_str

  • 名称: convert_to_str

  • 说明:将整数或浮点数转换为字符串。

  • 参数:不适用

  • 有效输入类型:

    • int

    • float

  • 预期输出类型:

    • string

数学

average

  • 名称: average

  • 说明:计算数组中值的平均值。

  • 参数:

    • round_precision

      • 类型: int

      • 必需: false

  • 有效输入类型:

    • [int]

    • [float]

  • 预期输出类型:

    • float

max

  • 名称: max

  • 说明:查找数组中的最大值。

  • 参数:不适用

  • 有效输入类型:

    • [float]

    • [int]

  • 预期输出类型:

    • float

    • int

min

  • 名称: min

  • 说明:查找数组中的最小值。

  • 参数:不适用

  • 有效输入类型:

    • [float]

    • [int]

  • 预期输出类型:

    • float

    • int

product

  • 名称: product

  • 说明:返回数组中所有值的乘积。

  • 参数:不适用

  • 有效输入类型:

    • [float]

    • [int]

  • 预期输出类型:

    • float

    • int

这有帮助吗?