Documentation has been updated: see help center and changelog in one place.

AI-Scraper

了解如何使用 AI Studio 从单个 URL 获取网页数据以用于你的 AI 工作流。

概览

AI-Scraper 是一个从单个网页提取数据的爬取工具。它根据自然语言提示识别并解析相关信息,然后以 JSON (用于自动化和 API)或 Markdown 格式(适合可读输出和 AI 工作流)。

该 AI 爬虫无需 CSS/XPath 选择器或自定义解析器,因此可无缝集成到各种自动化管道中。 自动生成模式 和灵活的输出格式为用户提供了一种简便方法,以提取干净、结构化的数据,而无需维护解析逻辑。

您可以预览该工具 此处 并通过我们的 Python/JavaScript SDK、MCP 服务器或我们的一些第三方集成将其集成到您的工作流中。

主要功能

  • 基于自然语言提示的提取 – 用简单英文定义你的需求,爬取代理将检索相关信息。

  • 多种输出格式 – 为结构化工作流选择 JSON,或为可读结果和 AI 工作流选择 Markdown。

  • 自动生成模式 – 从提示自动生成模式,或手动定义以获取精确的 JSON 解析。

  • 适用于任何公开网页 – 从电商、新闻、博客或任何其他可访问来源提取数据。

工作原理

要使用 AI-Scraper 爬取网页,请按以下步骤操作:

  1. 提供要爬取的网页 URL。 你想要爬取的网页。

  2. 用自然语言描述要提取的数据 (例如:“获取所有产品名称和价格”)。

  3. 选择输出格式 – 结构化 JSON 或 Markdown。

  4. (可选)定义模式 – 让 AI-Scraper 自动生成,或提供你自己的 OpenAPI 模式以获得所需的精确结构。

安装

首先,确保你有 AI Studio API 密钥(或 获取 1000 积分的免费试用 )并且 已安装 Python v3.10 或更高版本。你可以使用 pip 安装 oxylabs-ai-studio 包:

代码示例(Python)

以下示例演示如何使用 AiScraper 从示例页面提取数据。

在我们的 PyPI 存储库中了解有关 AI-Scraper 和 Oxylabs AI Studio Python SDK 的更多信息。你也可以查看我们的 AI Studio JavaScript SDK 指南,供 JS 用户使用。

请求参数

参数
说明
默认值

url*

要爬取的目标 URL

output_format

输出格式(json, markdown)

markdown

schema

用于结构化提取的 OpenAPI 模式(JSON 时为必需)

render_javascript

启用渲染 JavaScript

False

geo_location

代理位置(ISO2 格式)

* – 必填参数

输出示例

AI-Scraper 可以返回已解析、可直接使用的输出,便于集成到你的应用中。

下面是其 JSON 输出示例:

或者,你可以设置 output_format to markdown 以接收 Markdown 格式的结果而不是 JSON。

实际使用场景

AI-Scraper 可应用于各种数据收集任务:

  1. 提取产品详情 – 从电商网站收集产品名称、描述和价格。

  2. 解析新闻文章 – 检索文章标题、日期、作者和正文文本。

  3. 爬取定价页面 – 收集竞争或市场研究所需的结构化定价信息。

  4. 提取职位发布 – 从招聘门户抓取职位标题、地点、薪资和发布日期。

最后更新于

这有帮助吗?