Documentation has been updated: see help center and changelog in one place.
⭐Explore
LogoLogo
Oxylabs dashboardContact usProduct
中文
  • Documentation
  • Help center
  • Changelog
  • 总览
  • 代理
    • 集成教程
      • 动态住宅代理教程
        • AdsPower
        • Android
        • BitBrowser(比特浏览器)
        • ClonBrowser
        • Ghost Browser
        • Helium Scraper
        • Hubstudio
        • Incogniton
        • Kameleo
        • MuLogin
        • Multilogin
        • Octoparse
        • Oxy® Proxy 的 Chrome 代理扩展程序
        • ParseHub
        • Playwright
        • Puppeteer
        • Selenium
        • SwitchyOmega
        • Shadowrocket
        • VMLogin
        • VMMask
        • WebHarvy
      • 动态移动代理教程
        • AdsPower
        • Android
        • BitBrowser(比特浏览器)
        • ClonBrowser
        • Ghost Browser
        • Helium Scraper
        • Hubstudio
        • Incogniton
        • Kameleo
        • MuLogin
        • Multilogin
        • Octoparse
        • Oxy® Proxy 的 Chrome 代理扩展程序
        • ParseHub
        • Playwright
        • Puppeteer
        • Selenium
        • SwitchyOmega
        • Shadowrocket
        • VMLogin
        • VMMask
        • WebHarvy
      • 静态数据中心代理教程
        • BitBrowser(比特浏览器)
        • FoxyProxy
        • Hubstudio
        • MuLogin
        • Oxy® 代理管理器
        • Proxifier
        • SwitchyOmega
        • VMMask
      • 动态数据中心代理集成教程
        • AdsPower
        • Hubstudio
        • MuLogin
        • VMMask
    • 静态数据中心代理
      • 企业
        • 入门指南
        • 代理列表
        • 提出请求
        • 企业-协议
        • 将 IP 列入白名单
          • 仪表板
          • RESTful
            • 获取白名单 IP 列表
            • 添加白名单 IP
            • 移除白名单的 IP
            • 正在保存更改(5 分钟冷却时间)
        • 数据中心代理 API
        • 代理轮换工具 - 可选
          • 使用代理轮换工具的会话控制
        • 响应代码
      • 自助服务
        • 入门指南
        • 发起请求
        • 代理列表
        • 代理轮换
        • 位置设置
        • 协议
        • 响应代码
        • 受限目标
    • ISP代理
      • 入门指南
      • 发起请求
      • 代理列表
      • 代理轮换
      • 位置设置
      • 协议
      • 响应代码
      • 受限目标
    • 住宅代理
      • 入门指南
      • 反向连接入口节点
        • 中国入口节点
      • 基本查询
      • 协议
      • 选择国家/地区
      • 选择州
      • 选择城市
      • 选择大洲
      • 会话控制
      • 具体国家/地区的入口节点
      • 端点生成器
      • 其他信息
      • 受限目标网站
      • 公共 API
    • 移动代理
      • 入门指南
      • 反向连接入口节点
        • 中国入口节点
      • 基本查询
      • 协议
      • 选择国家/地区
      • 选择大洲
      • 会话控制
      • 具体国家/地区的入口节点
      • 端点生成器
      • 其他信息
      • 受限目标网站
      • 公共 API
    • 数据中心代理
      • 代理列表
      • IP控制
      • 选择国家
      • 协议
      • 白名单
      • 响应代码
      • 受限目标
      • 公平使用政策
    • (传统!)动态数据中心代理
      • 入门指南
      • 提出请求
      • 选择国家/地区
      • 会话控制
      • 响应代码
      • 受限目标网站
  • 高级代理解决方案
    • 网页解锁器
      • 开始使用
      • 提出请求
        • 会话
        • 地理位置
        • 标头
        • Cookie
        • 自定义状态代码
        • POST 请求
        • JavaScript 渲染
      • 样例响应
      • 用量统计数据
  • 爬虫API
    • 入门
      • API 参考
        • 集成方法
          • Realtime
          • 推拉
          • 代理端口
        • 身份验证
        • 全局参数值
        • 响应代码
        • 用量统计
      • Postman
    • 电商爬虫 API
      • Amazon
        • 参数值
        • 结构化数据
      • Google Shopping
        • 参数值1
        • 结构化数据
      • AliExpress
      • 其他域名
        • 参数值
        • 下载图片
    • SERP 爬虫 API
      • Google
        • 参数值
        • 结构化数据
      • Bing
        • 参数值
      • 其他搜索引擎
    • 网络爬虫 API
      • 其他域名
        • 参数值
        • 下载图片
    • 任务管家 (Scheduler)
    • 自定义解析器 (Custom Parser)
      • 入门
      • 解析指令的示例
      • 函数列表
        • 函数示例
    • 无头浏览器 (Headless Browser)
      • JavaScript 渲染
      • 浏览器指令(测试版)
        • 指令列表
  • 有用链接
    • Oxylabs 仪表板
    • Discord社群
    • GitHub
  • 常见问题
  • 支持
    • 需要帮助?
Powered by GitBook
On this page
  • HTML处理
  • element_text
  • xpath
  • xpath_one
  • css
  • css_one
  • 字符串操作
  • amount_from_string
  • amount_range_from_string
  • join
  • regex_find_all
  • regex_search
  • regex_substring
  • 常用
  • length
  • select_nth
  • convert_to_float
  • convert_to_int
  • convert_to_str
  • 数学
  • average
  • max
  • min
  • product

Was this helpful?

  1. 爬虫API
  2. 自定义解析器 (Custom Parser)

函数列表

HTML处理

element_text

  • 名称: element_text

  • 描述: 从html中提取文本。去除前导和尾部的空白。

  • Args: n/a

  • 有效的输入类型: html

  • 预期的输出类型: str

xpath

  • 名称: xpath

  • 描述: 在给定的输入值上执行一个XPath表达式。如果执行未能产生结果,则请使用数组中的以下表达式。XSLT函数可以在表达式中使用。支持XPath 1.0版本。支持XSLT 1.0版本。

  • Args:

    • xpath_expressions

      • 类型: [str]

      • 需要: true

  • 有效的输入类型:

    • html

  • 预期的输出类型:

    • [str]

    • [html]

    • str

    • float

    • bool

xpath_one

  • 名称: xpath_one

  • 描述: 与xpath的工作方式相同,但是如果提供的XPath有多个数值被选中,则只返回第一个值,

  • Args:

    • xpath_expressions

      • 类型: [str]

      • 需要: true

  • 有效的输入类型:

    • html

  • 预期的输出类型:

    • str

    • html

    • str

    • float

    • bool

css

  • 名称: css

  • 描述:

    • 在给定的输入值上执行一个CSS表达式。如果执行未能产生结果,则请使用数组中的以下表达式。请注意,css函数的输出始终是一个包含HTML元素的JSON数组(包括打开和关闭标签)。如果您对提取该元素的内容感兴趣,您可以执行element_text函数。

  • Args:

    • css_expressions

      • 类型: [str]

      • 需要: true

  • 有效的输入类型:

    • html

  • 预期的输出类型:

    • [html_element]

css_one

  • 名称: css_one

  • 描述: 与css的工作方式相同,但是如果提供的CSS表达式有多个数值被选中,则只返回第一个值,请注意,在css_one函数的输出始终是一个HTML元素(包括开头和结尾的标签)。如果您对提取该元素的内容感兴趣,您可以执行element_text函数。

  • Args:

    • css_expressions

      • 类型: [str]

      • 需要: true

  • 有效的输入类型:

    • html

  • 预期的输出类型:

    • html_element

字符串操作

amount_from_string

  • 名称: amount_from_string

  • 描述: 在一个字符串中找到第一个出现的数字值,并将其转换为浮点数。

  • Args: n/a

  • 有效的输入类型:

    • str

  • 预期的输出类型:

    • float

amount_range_from_string

  • 名称: amount_range_from_string

  • 描述: 查找字符串中所有出现的数字值并将其转换为浮点数。

  • Args: n/a

  • 有效的输入类型:

    • str

  • 预期的输出类型:

    • [float]

join

  • 名称: join

  • 描述: 将一个字符串的列表连接成一个字符串。连接的值由分隔符数值分隔。

  • Args:

    • separator

      • 类型: str

      • 需要: false

      • 默认: ""

  • 有效的输入类型:

    • [str]

  • 预期的输出类型:

    • str

regex_find_all

  • 名称: regex_find_all

  • 描述: 查找与给定的RegEx表达式相匹配的所有字符串。

  • Args:

    • regex_pattern

      • 类型: str

      • 需要: true

  • 有效的输入类型:

    • str

  • 预期的输出类型:

    • [str]

regex_search

  • 名称: regex_search

  • 描述: 找到一个与给定的RegEx表达式相匹配的字符串。返回指定的匹配组(默认为0)。

  • Args:

    • regex_pattern

      • 类型: str

      • 需要: true

    • group_to_return

      • 类型: int

      • 需要: false

      • 默认: 0

  • 有效的输入类型:

    • str

  • 预期的输出类型:

    • str

regex_substring

  • 名称: regex_substring

  • 描述: 找到一个与给定的RegEx表达式相匹配的字符串。返回指定的匹配组(默认为0)。

  • Args:

    • regex_pattern

      • 类型: str

      • 需要: true

    • group_to_return

      • 类型: int

      • 需要: false

      • 默认: 0

  • 有效的输入类型:

    • str

  • 预期的输出类型:

    • str

常用

length

  • 名称: length

  • 描述: 获取数组的长度。如果提供一个多维数组作为输入值,则该函数将对最内层的数组生效。

  • Args: n/a

  • 有效的输入类型:

    • [OneDimensionalArray]

  • 预期的输出类型:

    • int

select_nth

  • 名称: select_nth

  • 描述: 返回第n个数组元素。使用了基于零的索引。支持负数索引,从数组中选择最后一个(-1),第二个(-2),...项。

  • Args:

    • index

      • 类型: int

      • 需要: true

  • 有效的输入类型:

    • [AnyType]

  • 预期的输出类型:

    • AnyType

convert_to_float

  • 名称: convert_to_float

  • 描述: 将一个字符串或一个整数转换为一个浮点数。

  • Args: n/a

  • 有效的输入类型:

    • str

    • int

  • 预期的输出类型:

    • float

convert_to_int

  • 名称: convert_to_int

  • 描述: 将一个字符串或浮点数转换为一个整数。

  • Args: n/a

  • 有效的输入类型:

    • str

    • float

  • 预期的输出类型:

    • int

convert_to_str

  • 名称: convert_to_str

  • 描述: 将一个整数或一个浮点数转换为一个字符串。

  • Args: n/a

  • 有效的输入类型:

    • int

    • float

  • 预期的输出类型:

    • string

数学

average

  • 名称: average

  • 描述: 计算一个数组中数值的平均数。

  • Args:

    • round_precision

      • 类型: int

      • 需要: false

  • 有效的输入类型:

    • [int]

    • [float]

  • 预期的输出类型:

    • float

max

  • 名称: max

  • 描述: 在一个数组中找到最大数值。

  • Args: n/a

  • 有效的输入类型:

    • [float]

    • [int]

  • 预期的输出类型:

    • float

    • int

min

  • 名称: min

  • 描述: 查找数组中最小数值。

  • Args: n/a

  • 有效的输入类型:

    • [float]

    • [int]

  • 预期的输出类型:

    • float

    • int

product

  • 名称: product

  • 描述: 返回所有数组值的乘积。

  • Args: n/a

  • 有效的输入类型:

    • [float]

    • [int]

  • 预期的输出类型:

    • float

    • int

Previous解析指令的示例Next函数示例

Last updated 1 year ago

Was this helpful?