OxyCopilot

使用 OxyCopilot 自动化抓取。学习如何通过简单的自然语言提示生成网页爬虫 API 有效负载、自定义解析器和浏览器指令。

OxyCopilot 是一个免费 网页爬虫 API 功能，可简化入门流程，帮助用户为复杂用例找到有效解决方案，而无需编码知识。OxyCopilot 当前包含三个独立功能：

爬虫生成器
自定义解析器 生成器
浏览器指令生成器

OxyCopilot 可在网页 Scraper API Playground 的 Oxylabs 仪表板中访问。

爬虫生成器

OxyCopilot 帮助您为 Web Scraper API 配置爬虫（并形成请求载荷），无需理解文档或字段逻辑。

工作原理

步骤 1：提供 URL 和提示

URL： 提供您想要抓取的 URL。
提示： 描述您的需求（例如，本地化、JS 渲染等）。

步骤 2：解析

您有三种处理解析的选项：

自定义解析器：选择“添加解析指令”以使用 自定义解析器生成器.
专用解析器：如果该 URL 来自我们为其提供专用解析器的网站且您想使用它，请选择“继续使用专用解析器”。
不解析：如果不需要结构化数据，则选择继续而不解析。

如果该 URL 属于我们有专用解析器的网站，但您不需要结构化数据，请选择“继续使用专用解析器”并在 playground 的设置中禁用 parse 参数。请避免使用退出按钮，因为它不会保存预填参数。

步骤 3：查看请求

基于您的提示，OxyCopilot 会在 Web Scraper API Playground 中预填必要参数。您将看到针对您的用例的具体请求代码和参数，并可根据需要调整参数。

步骤 4：提交请求并复制

如果一切正常，提交请求以查看输出并检查其是否按预期工作。然后，复制请求代码以在后续使用 Web Scraper API 的抓取任务中使用。

示例

URL

https://www.amazon.de/s?k=adidas

提示

抓取提供的 URL 的 Amazon 搜索页面并将结果本地化到波兰。

AI 生成的参数（JSON）

{
        "source": "amazon_search",
        "query": "adidas",
        "geo_location": "PL",
        "domain": "de"
}

AI 生成的请求代码

自定义解析器生成器

利用 自定义解析器 功能与 OxyCopilot 一起构建解析器，而无需编写代码或手动分析网站结构。

工作原理

步骤 1：提供 URL（可多个）和提示

URL（可多个）： 您最多可以提供 3 个 URL 用于生成解析指令。OxyCopilot 使用所提供 URL 的 HTML 来确定提取所需字段的最佳逻辑。

您提供的 URL 越多，解析指令越健壮，因为 OxyCopilot 会识别相似页面之间的常见模式。请注意，添加更多 URL 可能会增加等待结果的时间。

提示： 提示是构建自然语言模式的关键组成部分，该模式作为生成实际解析指令的基础。提示应清楚描述需要解析的字段。

步骤 2（可选）：调整解析模式

此步骤允许您微调解析模式以更好地满足需求或排查问题。

解析模式概览

此表可视化 AI 用于生成解析指令的输入。该模式定义了需要解析的字段，并由各种对象类型组成（在下文的表格中解释）。

模式中的每个项必须包含：

名称：这将用作解析指令中的对象键，并在解析数据中可见。
说明（可选但推荐）：有助于提高解析准确性。

模式调整

重新排序项目：使用左侧的点拖放项目以更改其顺序（只能移动同一嵌套层级内的项目）。
编辑项目：点击编辑图标以修改任何字段。
删除项目：您可以删除父级层的任何项目。
添加新项目：向父级层添加新项目。

更新模式后，点击 “刷新输出” 按钮以重新生成指令并预览解析数据。

对象类型说明

对象类型

说明

解析数据示例

字符串

单个文本输出

“title”: “示例产品标题”

数字

单个数字

“price”: 9.99

字符串数组

文本输出列表

“products”: [“product 1”, “product 2”, “product 3”]

数字数组

数字列表

“pages”: [1, 2, 3]

对象数组

对象/项的列表，每个项内部有自己的对象（在解析指令中为_items 块）

“related_items”: [
  {
    “title”: “product 1”,
    “price”: 9.99
  },
  {
    “title”: “product 2”,
    “price”: 15.99
  }
]

处理对象数组

选择“对象数组”：此选项会添加一个子对象和按钮。

填写对象名称：要将该项保存到模式，您必须填写父对象和子对象的名称。完成后，勾选标记会变为绿色。

子对象要求：一个“对象数组”必须至少有一个子对象。

测试指令

默认情况下，解析数据基于在 步骤 1中提供的第一个 URL。您也可以提供不同的 URL 来测试解析指令：

指令是基于初始 URL 生成的，不会考虑测试 URL。编辑提示或 URL 会重置模式，需要完整重新生成。

步骤 3：复制/保存指令并集成到抓取任务中

一旦指令令人满意：

使用 “复制” 按钮以复制指令并将其粘贴到您的爬虫代码中。
或者，将指令保存到您的 Web Scraper API Playground 会话，调整其他请求参数，进行测试，然后以您偏好的编程语言复制完整的请求代码。

示例

URL

https://sandbox.oxylabs.io/products/1

提示

我想解析一个产品页面。解析的数据应包含以下字段：

- product_title：包含产品标题的文本字段
- price：包含产品价格的数字字段
- related_products：包含主产品信息下方显示的相关产品标题的列表

解析模式

对象类型

名称*

说明

字符串

product_title

产品标题

数字

价格

产品价格

字符串数组

related_products

主产品信息下方的相关产品标题

解析指令

{
    "product_title": {
        "_fns": [
            {
                "_fn": "xpath_one",
                "_args": [
                    "//h2[@class=\"title css-1k75zwy e1pl6npa11\"]/text()",
                    "//div[@class=\"product-info-wrapper css-m2w3q2 emlf3670\"]/h2/text()",
                    "//div[@id=\"__next\"]/main/div/div/div/div[2]/div[1]/div[2]/div[2]/h2/text()"
                ]
            },
            {
                "_fn": "regex_search",
                "_args": [
                    "^\\s*(.[\\s\\S]*?)\\s*$",
                    1
                ]
            }
        ]
    },
    "price": {
        "_fns": [
            {
                "_fn": "xpath_one",
                "_args": [
                    "//div[@class=\"price css-o7uf8d e1pl6npa6\"]/text()",
                    "//div[@class=\"product-info-wrapper css-m2w3q2 emlf3670\"]/div[4]/text()",
                    "//div[@id=\"__next\"]/main/div/div/div/div[2]/div[1]/div[2]/div[2]/div[4]/text()"
                ]
            },
            {
                "_fn": "amount_from_string"
            }
        ]
    },
    "related_products": {
        "_fns": [
            {
                "_fn": "xpath",
                "_args": [
                    "//div/div[@class=\"product-card css-e8at8d eag3qlw10\"]/a[1]/h4/text()",
                    "//div[@id=\"__next\"]/main/div/div/div/div[2]/div[2]/div/a[1]/h4/text()",
                    "//div[@class=\"related-products css-1rinft1 emlf3670\"]/div/a[1]/h4/text()",
                    "//html[@lang=\"en\"]/body/div/main/div/div/div/div[2]/div[2]/div/a[1]/h4/text()",
                    "//div/div[@class=\"product-card css-e8at8d eag3qlw10\"]//h4[@class=\"title css-7u5e79 eag3qlw7\"]/text()",
                    "//div[@id=\"__next\"]/main/div/div/div/div[2]/div[2]/div//h4[@class=\"title css-7u5e79 eag3qlw7\"]/text()",
                    "//div[@class=\"related-products css-1rinft1 emlf3670\"]/div//h4[@class=\"title css-7u5e79 eag3qlw7\"]/text()",
                    "//div/div[@class=\"product-card css-e8at8d eag3qlw10\"]//a[@class=\"card-header css-o171kl eag3qlw2\"]/h4/text()",
                    "//html[@lang=\"en\"]/body/div/main/div/div/div/div[2]/div[2]/div//h4[@class=\"title css-7u5e79 eag3qlw7\"]/text()",
                    "//div[@id=\"__next\"]/main/div/div/div/div[2]/div[2]/div//a[@class=\"card-header css-o171kl eag3qlw2\"]/h4/text()",
                    "//div[@class=\"related-products css-1rinft1 emlf3670\"]/div//a[@class=\"card-header css-o171kl eag3qlw2\"]/h4/text()",
                    "//html[@lang=\"en\"]/body/div/main/div/div/div/div[2]/div[2]/div//a[@class=\"card-header css-o171kl eag3qlw2\"]/h4/text()"
                ]
            },
            {
                "_fn": "regex_search",
                "_args": [
                    "^\\s*(.[\\s\\S]*?)\\s*$",
                    1
                ]
            }
        ]
    }
}

解析数据

{
    "price": 91.99,
    "product_title": "塞尔达传说：时之笛",
    "related_products": [
        "塞尔达传说：梅祖拉的假面",
        "印第安纳·琼斯与地狱之机"
    ],
    "parse_status_code": 12000
}

通过 API 生成解析指令

如果您希望为所处理的多样网站生成大量不同的解析指令集，可以通过 API 构建解析指令 —— 参见解析指令生成器 API 了解具体实现方法。

浏览器指令生成器

您可以使用 OxyCopilot 构建复杂的页面交互脚本，而无需分析站点结构或手动为您的浏览器指令.

工作原理

步骤 1：提供 URL 和提示

URL： 请提供单个 URL 以生成浏览器指令。OxyCopilot 使用所提供 URL 的 HTML 来确定如何为您所需的网页交互生成脚本。
提示： 提示对构建浏览器指令至关重要。请明确说明在页面打开后希望执行的操作（例如“滚动到底部，等待‘下一页’按钮加载，然后点击‘下一页’按钮”）。

步骤 2（可选）：调整浏览器指令

此步骤允许您微调浏览器指令序列以更好地满足需求或排查问题。

浏览器指令概览

一旦 OxyCopilot 处理完您的输入，它会展示已创建的浏览器指令序列。

您可以通过编辑、添加或删除步骤来调整该序列。

步骤 3：复制/保存指令并集成到抓取任务中

一旦指令令人满意，您可以将指令保存到 Web Scraper API Playground 会话中，调整其他请求参数，进行测试，然后以您偏好的编程语言复制完整的请求代码。

我们欢迎您提供反馈和改进建议。如有疑问，请随时通过 [email protected] 或通过我们的 24/7 在线聊天支持与我们联系。

上一页网页爬虫 API Playground 下一页使用与计费

最后更新于4个月前

这有帮助吗？

晚上好

hashtag爬虫生成器

hashtag工作原理

hashtag步骤 1：提供 URL 和提示

hashtag步骤 3：查看请求

hashtag示例

hashtagURL

hashtag提示

hashtagAI 生成的参数（JSON）

hashtagAI 生成的请求代码

hashtag自定义解析器生成器

hashtag工作原理

hashtag步骤 1：提供 URL（可多个）和提示

hashtag步骤 2（可选）：调整解析模式

hashtag解析模式概览

hashtag模式调整

hashtag对象类型说明

hashtag处理对象数组

hashtag测试指令

hashtag步骤 3：复制/保存指令并集成到抓取任务中

hashtag示例

hashtagURL

hashtag提示

hashtag解析模式

hashtag解析指令

hashtag解析数据

hashtag通过 API 生成解析指令

hashtag浏览器指令生成器

hashtag工作原理

hashtag步骤 1：提供 URL 和提示

hashtag步骤 2（可选）：调整浏览器指令

hashtag浏览器指令概览

hashtag步骤 3：复制/保存指令并集成到抓取任务中

爬虫生成器

工作原理

步骤 1：提供 URL 和提示

步骤 3：查看请求

示例

URL

提示

AI 生成的参数（JSON）

AI 生成的请求代码

自定义解析器生成器

工作原理

步骤 1：提供 URL（可多个）和提示

步骤 2（可选）：调整解析模式

解析模式概览

模式调整

对象类型说明

处理对象数组

测试指令

步骤 3：复制/保存指令并集成到抓取任务中

示例

URL

提示

解析模式

解析指令

解析数据

通过 API 生成解析指令

浏览器指令生成器

工作原理

步骤 1：提供 URL 和提示

步骤 2（可选）：调整浏览器指令

浏览器指令概览

步骤 3：复制/保存指令并集成到抓取任务中