Documentation has been updated: see help center and changelog in one place.

AI-Scraper

了解如何使用 AI Studio 从单个 URL 获取网页数据以用于 AI 工作流。

概览

AI-Scraper 是一款从单个网页提取数据的爬取工具。它根据自然语言提示识别并解析相关信息,然后以 JSON (用于自动化和 API)或 Markdown 格式(更适合可读输出和 AI 工作流)。

此 AI 爬虫无需使用 CSS/XPath 选择器或自定义解析器,因此可以无缝集成到各种自动化管道中。 自动生成模式 和灵活的输出格式为用户提供了一种简单方式来提取干净的结构化数据,而无需维护解析逻辑。

您可以预览该工具 此处 并通过我们的 Python/JavaScript SDK、MCP 服务器或我们的一些第三方集成将其集成到您的工作流中。

主要功能

  • 基于自然语言提示的提取 – 用简单的英语定义您的需求,爬取代理将检索相关信息。

  • 多种输出格式 – 为结构化工作流选择 JSON,或为可读结果和 AI 工作流选择 Markdown。

  • 自动生成模式 – 可从提示自动生成模式,或手动定义以实现精确的 JSON 解析。

  • 适用于任何公开网页 – 可从电商、新闻、博客或任何其他可访问来源提取数据。

工作原理

要使用 AI-Scraper 爬取网页,请按照以下步骤操作:

  1. 提供要爬取的网页 URL。 您想要爬取的网页 URL。

  2. 用自然语言描述要提取的数据 (例如:“获取所有产品名称和价格”)。

  3. 选择输出格式 – 结构化 JSON 或 Markdown。

  4. (可选)定义模式 – 让 AI-Scraper 自动生成,或提供您自己的 OpenAPI 模式以获得所需的确切结构。

安装

首先,确保您拥有 AI Studio API 密钥(或 获取免费试用 含 1000 积分)并且 已安装 Python v3.10 或更高版本。您可以使用 pip 安装 oxylabs-ai-studio 包:

pip install oxylabs-ai-studio

代码示例(Python)

以下示例展示了如何使用 AiScraper 从示例页面提取数据。

from oxylabs_ai_studio.apps.ai_scraper import AiScraper
import json

# 使用您的 API 密钥初始化 AI Scraper
scraper = AiScraper(api_key="YOUR_API_KEY")

# 从自然语言自动生成模式
schema = scraper.generate_schema(prompt="want to parse developer, platform, type, price game title, and genre (array)")
print(f"Generated schema: {schema}")

# 爬取网页并提取结构化数据
url = "https://sandbox.oxylabs.io/products/3"
result = scraper.scrape(
    url=url,
    output_format="json",
    schema=schema,
    render_javascript=False,
    geo_location="US",
)
# 以 JSON 打印爬取输出
print("Results:")
print(json.dumps(result.data, indent=2))

在我们的 PyPI 仓库中了解有关 AI-Scraper 和 Oxylabs AI Studio Python SDK 的更多信息。您也可以查看我们的 AI Studio JavaScript SDK 为 JS 用户准备的指南。

请求参数

参数
说明
默认值

url*

要爬取的目标 URL

output_format

输出格式(json, markdown)

markdown

schema

用于结构化提取的 OpenAPI 模式(JSON 必填)

render_javascript

启用渲染 JavaScript

False

geo_location

以 ISO2 格式指定代理位置

* – 必填参数

输出示例

AI-Scraper 可以返回已解析、可直接使用的输出,便于集成到您的应用中。

以下是其 JSON 输出的示例:

{
  "games": [
    {
      "developer": "Nintendo EAD Tokyo",
      "platform": "wii",
      "type": "singleplayer",
      "price": 91.99,
      "title": "Super Mario Galaxy 2",
      "genre": [
        "Action",
        "Platformer"
      ]
    },
    {
      "developer": "Eidos Interactive",
      "platform": "wii",
      "type": null,
      "price": 80.99,
      "title": "Death Jr.: Root of Evil",
      "genre": [
        "Action",
        "Platformer",
        "3D"
      ]
    }
}

或者,您可以设置 output_format 到达 markdown 以接收 Markdown 格式的结果,而不是 JSON。

实际使用场景

AI-Scraper 可应用于各种数据收集任务:

  1. 提取产品详情 – 从电商网站收集产品名称、描述和价格。

  2. 解析新闻文章 – 获取文章标题、日期、作者和正文文本。

  3. 爬取定价页面 – 收集用于竞争或市场研究的结构化定价信息。

  4. 提取职位发布信息 – 从招聘门户抓取职位名称、地点、薪资和发布日期。

最后更新于

这有帮助吗?