面向 AI 的 YouTube 抓取指南
了解如何使用 Web Scraper API 获取用于 AI 训练的 YouTube 数据。了解从搜索视频到创建数据库的完整工作流。
本指南将介绍使用 网页爬虫API的专用来源: youtube_search, youtube_video_trainability, youtube_metadata, youtube_download, youtube_transcript.
步骤 1:搜索视频
首先搜索与您感兴趣主题相关的视频。
基本搜索
用于返回最多 20 个结果的快速搜索:
{
"source": "youtube_search",
"query": "your search term"
}扩展搜索
用于更全面的结果(最多 700 个结果):
{
"source": "youtube_search_max",
"query": "your search term"
}带过滤器的搜索
使用过滤器精炼搜索:
{
"source": "youtube_search",
"query": "your search term",
"type": "video",
"duration": "4-20",
"upload_date": "this_month",
"sort_by": "view_count",
"hd": true
}步骤 2:从搜索结果中提取视频 ID
在收到搜索结果后,提取 video IDs 以便进一步处理。在来自 youtube_search 或 youtube_search_max的响应中,视频 ID 可直接在每个结果项的 videoId 字段中获得,如下示例响应片段所示:
{
"results": [
{
"content": [
{
"videoId": "LK9XuImr8Xg", // This is the video ID you need
"thumbnail": {
"thumbnails": [
{
"url": "https://i.ytimg.com/vi/LK9XuImr8Xg/hq720_2.jpg?sqp=-oaymwE2COgCEMoBSFXyq4qpAygIARUAAIhCGABwAcABBvABAfgBtgiAAoAPigIMCAAQARhaIGUoLTAP&rs=AOn4CLDTvqEgoE2ZNfnn3EalF2ujcthVNw",
"width": 360,
"height": 202
}
]
},
"title": {
// title details
}
}
]
}
]
}将这些视频 ID 提取到列表中以供后续 API 调用使用。
步骤 3:检查 AI 训练合规性
在下载或使用视频进行 AI 训练之前,检查它们的合规性:
{
"source": "youtube_video_trainability",
"video_id": "rFNDylrjn_w"
}响应会指示该视频是否可以用于 AI 训练用途:
["all"]- 允许所有方进行训练["none"]- 不允许任何方进行训练["party1", "party2", ...]- 仅允许特定方进行训练
步骤 4:获取视频元数据
收集有关视频的附加信息,以进一步评估其质量和相关性:
{
"source": "youtube_metadata",
"query": "VIDEO_ID",
"parse": true
}响应将包含诸如观看次数、评论、评分和其他可帮助您评估内容质量的指标的元数据。
该 parse parameter must be set to true for the metadata source.
步骤 5:检索所选视频的内容
在根据合规性和元数据识别出高质量、可训练的视频后,您可以继续进行内容检索。这可以并行执行两个步骤:
5.1 下载视频/音频内容
{
"source": "youtube_download",
"query": "VIDEO_ID",
"storage_type": "s3",
"storage_url": "s3://your-bucket/your-folder/"
}下载的其他选项:
{
"source": "youtube_download",
"query": "VIDEO_ID",
"storage_type": "s3",
"storage_url": "s3://your-bucket/your-folder/",
"context": [
{
"key": "download_type",
"value": "video"
},
{
"key": "video_quality",
"value": "1080"
}
]
}注意:
视频长度可达 3 小时
默认分辨率为 720p(可自定义)
您可以指定仅音频、仅视频或同时下载两者
5.2 获取视频转录
转录(transcripts)不同于隐藏字幕(CC)。并非所有视频在所有语言中都有可用转录。如果指定语言的转录不存在,API 将返回一个 404 status code.
检查视频是否有转录:
检查转录可用性的最高效方法是查看视频元数据 (步骤 4),其中包括这些字段:
{
"is_transcript_available": true,
"generated_subtitle_languages": [
"en"
],
"generated_transcript_languages": [
"en"
]
}如果元数据显示可用转录,您可以通过以下方式检索它们:
{
"source": "youtube_transcript",
"query": "VIDEO_ID",
"context": [
{
"key": "language_code",
"value": "en"
}
]
}对于具有人工创建转录的视频,请指定:
{
"source": "youtube_transcript",
"query": "VIDEO_ID",
"context": [
{
"key": "language_code",
"value": "en"
},
{
"key": "transcript_origin",
"value": "uploader_provided"
}
]
}手动检查视频是否有转录:
在 YouTube 上,点击视频下方的 "..." 菜单,然后查找 "Show transcript" 在菜单选项中。如果此选项缺失,则该视频没有可用的转录。存在时,您可以点击它以查看可用的转录语言。
批量处理
为高效处理多个视频,请使用批量端点:
{
"source": "youtube_video_trainability",
"query": ["VIDEO_ID_1", "VIDEO_ID_2", "VIDEO_ID_3"]
}最佳实践
按照发现工作流: search → trainability → metadata → content 以最大化效率
在处理单个视频之前先缩小搜索结果范围
在使用内容进行 AI 之前始终验证可训练性
检查 response codes 并为失败的请求实现重试机制
最后更新于
这有帮助吗?

