面向 AI 的 YouTube 抓取指南
了解如何使用 Web Scraper API 获取用于 AI 训练的 YouTube 数据。了解从搜索视频到创建数据库的完整工作流。
本指南将引导您了解使用 Web Scraper API 的专用来源: youtube_search, youtube_video_trainability, youtube_metadata, youtube_download, youtube_transcript.
步骤 1:搜索视频
首先搜索与您感兴趣主题相关的视频。
基本搜索
用于快速搜索,最多返回 20 个结果:
{
"source": "youtube_search",
"query": "your search term"
}扩展搜索
用于更全面的结果(最多 700 个结果):
{
"source": "youtube_search_max",
"query": "your search term"
}带筛选的搜索
使用筛选器精炼您的搜索:
步骤 2:从搜索结果中提取视频 ID
在接收到搜索结果后,提取 video IDs 以便后续处理。在来自 youtube_search 或 youtube_search_max的响应中,视频 ID 可直接在每个结果项的 videoId 字段中获得,如下示例响应片段所示:
将这些视频 ID 提取到列表中以供后续 API 调用使用。
步骤 3:检查 AI 训练合规性
在下载或使用视频进行 AI 训练之前,请检查其合规性:
响应将指出该视频是否可用于 AI 训练:
["all"]- 允许所有方进行训练["none"]- 不允许任何方进行训练["party1", "party2", ...]- 仅允许特定方进行训练
步骤 4:获取视频元数据
收集有关视频的其他信息以进一步评估其质量和相关性:
响应将包含诸如观看次数、评论、评分和其他可帮助您评估内容质量的指标等元数据。
该 parse parameter must be set to true for the metadata source.
步骤 5:从选定视频中检索内容
在根据合规性和元数据识别出高质量且可训练的视频后,您可以继续进行内容检索。此过程可分为两个并行步骤:
5.1 下载视频/音频内容
下载的其他选项:
注意:
视频长度可达 3 小时
默认分辨率为 720p(可定制)
您可以指定仅音频、仅视频或两者都要
5.2 检索视频转录文本
转录文本不同于隐藏式字幕 (CC)。并非所有视频在所有语言下都有可用的转录。如果指定语言的转录不存在,API 将返回一个 404 status code.
检查视频是否有转录:
检查转录可用性的最有效方法是查看视频元数据 (步骤 4),其中包含以下字段:
如果元数据显示有可用的转录,您可以使用以下方式检索它们:
对于有人工创建转录的视频,指定:
检查视频是否有转录(手动):
在 YouTube 上,单击视频下方的 "..." 菜单,然后查找 "Show transcript" 在菜单选项中。如果该选项缺失,则表示该视频没有可用的转录。若存在,您可以点击它以查看可用的转录语言。
批量处理
为高效处理多个视频,请使用批量端点:
最佳实践
按照发现工作流: search → trainability → metadata → content 以最大化效率
在处理单个视频之前缩小搜索结果范围
在将内容用于 AI 之前始终验证可训练性
检查 response codes 并为失败的请求实现重试机制
最后更新于
这有帮助吗?

