AI-Crawler
了解如何从一个 URL 开始爬取网站、查找相关页面并提取数据——所有操作均由您的自然语言提示引导。
概览
AI-Crawler 是一个使用先进 AI 算法爬取指定域名的数据提取应用。它根据自然语言提示识别相关页面并提取结构化的 JSON 或 Markdown 输出数据。
此低代码工具旨在简化复杂的数据获取任务,使开发者和数据科学家能够专注于分析,而无需构建和维护自定义网页爬虫。该 AI 网页爬虫提供高级过滤、基于模式的解析,以及与各种自动化管道的无缝集成。
您可以预览该工具 此处 并通过我们的 Python/JavaScript SDK、MCP 服务器或我们的一些第三方集成将其集成到您的工作流中。
主要功能
从任意给定 URL 开始爬取: 使用 AI Crawler 从任何有效的网页地址开始您的数据提取。
自然语言提示: 用简单的英语定义您的数据需求,爬取代理将解释提示以查找相关内容。
AI 辅助的 URL 选择: AI 网页爬虫会智能地探索网站,识别并优先处理与您的提示最匹配的页面。
多种输出格式: 在结构化 JSON 或 Markdown 输出之间进行选择,以便无缝集成到自动化或 AI 工作流中。
基于模式的解析: 对于 JSON 输出,您可以用自然语言定义解析模式,以确保提取的数据按您的应用需求进行结构化。
用法
要开始使用 AI Crawler,请按照以下四步流程:
提供起始 URL 您希望网页爬虫探索的网站的起始网址。
描述要抓取的内容, 使用自然语言提示告诉爬取代理您想要检索的内容。
选择输出格式。 在结构化 JSON 或 Markdown 之间进行选择。
如果使用 JSON 输出, 提供一个模式以指导 AI 网页爬虫解析和结构化提取的数据。
安装
开始之前,请确保您有 API 密钥(或 获取免费试用 使用 1,000 credits) 并且 已安装 Python 3.10+。 您可以安装该 oxylabs-ai-studio 包:
pip install oxylabs-ai-studio示例代码(Python)
以下示例演示如何使用 AiCrawler 执行常见的爬取任务。
from oxylabs_ai_studio.apps.ai_crawler import AiCrawler
import json
# 使用您的 API 密钥初始化 AI Crawler
crawler = AiCrawler(api_key="your_api_key")
# 根据自然语言自动生成模式
schema = crawler.generate_schema(prompt="want to parse name, platform, price")
print(f"生成的模式: {schema}")
# 爬取网站并提取结构化数据
url = "https://sandbox.oxylabs.io/products"
result = crawler.crawl(
url=url,
user_prompt="Find all Halo games for Xbox",
output_format="json",
schema=schema,
render_javascript=False,
return_sources_limit=3,
geo_location="US",
)
# 以 JSON 格式打印爬取输出
print("结果:")
print(json.dumps(result.data, indent=2))在我们的 PyPI 仓库. 您也可以查看我们的 AI Studio JavaScript SDK 供 JS 用户使用的指南。
请求参数
url*
要爬取的起始 URL
–
user_prompt*
用于指导提取的自然语言提示
–
output_format
输出格式(json, markdown)
markdown
schema
用于结构化提取的 OpenAPI schema(JSON 必填)
–
render_javascript
启用渲染 JavaScript
False
return_sources_limit
要返回的最大来源数量
25
geo_location
以 ISO2 格式表示的代理位置
–
* – 必需参数
输出示例
AI-Crawler 可以返回已解析、可直接使用的输出,便于集成到您的应用中。
其 JSON 输出示例如下:
[
{
"data": {
"items": [
{
"name": "Halo: Reach",
"platform": "Xbox platform",
"price": 84.99
}
]
},
"src": "https://sandbox.oxylabs.io/products/141"
},
{
"data": {
"items": [
{
"name": "Halo 3",
"platform": "Xbox platform",
"price": 81.99
}
]
},
"src": "https://sandbox.oxylabs.io/products/28"
},
{
"data": {
"items": [
{
"name": "Halo: Combat Evolved",
"platform": "Xbox platform",
"price": 87.99
}
]
},
"src": "https://sandbox.oxylabs.io/products/6"
}
]或者,您可以使用 output_format=”markdown” 以接收 Markdown 结果而不是解析后的 JSON。
实际使用场景
AI-Crawler 是一个适用于多种场景的多功能工具,包括:
查找服务条款页面: 快速定位域名下的法律和政策页面。
收集定价页面: 收集用于竞争对手分析或市场研究的定价详情。
检索所有“关于”页面: 自动从网站列表中查找并提取公司信息。
列出与 AI 相关的新闻文章: 爬取新闻网站以收集并存档关于特定主题的文章。
最后更新于
这有帮助吗?

