AI-Scraper
了解如何使用 AI Studio 从单个 URL 获取网页数据以用于你的 AI 工作流。
概览
AI-Scraper 是一个从单个网页提取数据的爬取工具。它根据自然语言提示识别并解析相关信息,然后以 JSON (用于自动化和 API)或 Markdown 格式(适合可读输出和 AI 工作流)。
该 AI 爬虫无需 CSS/XPath 选择器或自定义解析器,因此可无缝集成到各种自动化管道中。 自动生成模式 和灵活的输出格式为用户提供了一种简便方法,以提取干净、结构化的数据,而无需维护解析逻辑。
您可以预览该工具 此处 并通过我们的 Python/JavaScript SDK、MCP 服务器或我们的一些第三方集成将其集成到您的工作流中。
主要功能
基于自然语言提示的提取 – 用简单英文定义你的需求,爬取代理将检索相关信息。
多种输出格式 – 为结构化工作流选择 JSON,或为可读结果和 AI 工作流选择 Markdown。
自动生成模式 – 从提示自动生成模式,或手动定义以获取精确的 JSON 解析。
适用于任何公开网页 – 从电商、新闻、博客或任何其他可访问来源提取数据。
工作原理
要使用 AI-Scraper 爬取网页,请按以下步骤操作:
提供要爬取的网页 URL。 你想要爬取的网页。
用自然语言描述要提取的数据 (例如:“获取所有产品名称和价格”)。
选择输出格式 – 结构化 JSON 或 Markdown。
(可选)定义模式 – 让 AI-Scraper 自动生成,或提供你自己的 OpenAPI 模式以获得所需的精确结构。
安装
首先,确保你有 AI Studio API 密钥(或 获取 1000 积分的免费试用 )并且 已安装 Python v3.10 或更高版本。你可以使用 pip 安装 oxylabs-ai-studio 包:
代码示例(Python)
以下示例演示如何使用 AiScraper 从示例页面提取数据。
在我们的 PyPI 存储库中了解有关 AI-Scraper 和 Oxylabs AI Studio Python SDK 的更多信息。你也可以查看我们的 AI Studio JavaScript SDK 指南,供 JS 用户使用。
请求参数
url*
要爬取的目标 URL
—
output_format
输出格式(json, markdown)
markdown
schema
用于结构化提取的 OpenAPI 模式(JSON 时为必需)
—
render_javascript
启用渲染 JavaScript
False
geo_location
代理位置(ISO2 格式)
—
* – 必填参数
输出示例
AI-Scraper 可以返回已解析、可直接使用的输出,便于集成到你的应用中。
下面是其 JSON 输出示例:
或者,你可以设置 output_format to markdown 以接收 Markdown 格式的结果而不是 JSON。
实际使用场景
AI-Scraper 可应用于各种数据收集任务:
提取产品详情 – 从电商网站收集产品名称、描述和价格。
解析新闻文章 – 检索文章标题、日期、作者和正文文本。
爬取定价页面 – 收集竞争或市场研究所需的结构化定价信息。
提取职位发布 – 从招聘门户抓取职位标题、地点、薪资和发布日期。
最后更新于
这有帮助吗?

