面向 AI 的 YouTube 抓取指南

了解如何使用 Web Scraper API 获取用于 AI 训练的 YouTube 数据。了解从搜索视频到创建数据库的完整工作流。

本指南将引导您了解使用 Web Scraper API 的专用来源: youtube_search, youtube_video_trainability, youtube_metadata, youtube_download, youtube_transcript.

步骤 1:搜索视频

首先搜索与您感兴趣主题相关的视频。

基本搜索

用于快速搜索,最多返回 20 个结果:

{
  "source": "youtube_search",
  "query": "your search term"
}

扩展搜索

用于更全面的结果(最多 700 个结果):

{
  "source": "youtube_search_max",
  "query": "your search term"
}

带筛选的搜索

使用筛选器精炼您的搜索:

使用适当的筛选器根据您的具体需求缩小结果范围。选项包括内容类型(video、channel、playlist)、时长、上传日期和质量设置。

步骤 2:从搜索结果中提取视频 ID

在接收到搜索结果后,提取 video IDs 以便后续处理。在来自 youtube_searchyoutube_search_max的响应中,视频 ID 可直接在每个结果项的 videoId 字段中获得,如下示例响应片段所示:

将这些视频 ID 提取到列表中以供后续 API 调用使用。

步骤 3:检查 AI 训练合规性

在下载或使用视频进行 AI 训练之前,请检查其合规性:

响应将指出该视频是否可用于 AI 训练:

  • ["all"] - 允许所有方进行训练

  • ["none"] - 不允许任何方进行训练

  • ["party1", "party2", ...] - 仅允许特定方进行训练

步骤 4:获取视频元数据

收集有关视频的其他信息以进一步评估其质量和相关性:

响应将包含诸如观看次数、评论、评分和其他可帮助您评估内容质量的指标等元数据。

步骤 5:从选定视频中检索内容

在根据合规性和元数据识别出高质量且可训练的视频后,您可以继续进行内容检索。此过程可分为两个并行步骤:

5.1 下载视频/音频内容

下载的其他选项:

该来源仅通过异步 Push-Pull integrationCloud Storage 功能可用。

注意:

  • 视频长度可达 3 小时

  • 默认分辨率为 720p(可定制)

  • 您可以指定仅音频、仅视频或两者都要

5.2 检索视频转录文本

检查视频是否有转录:

检查转录可用性的最有效方法是查看视频元数据 (步骤 4),其中包含以下字段:

这种方法比发出会导致 404 errors, which are billable.

如果元数据显示有可用的转录,您可以使用以下方式检索它们:

对于有人工创建转录的视频,指定:

检查视频是否有转录(手动):

在 YouTube 上,单击视频下方的 "..." 菜单,然后查找 "Show transcript" 在菜单选项中。如果该选项缺失,则表示该视频没有可用的转录。若存在,您可以点击它以查看可用的转录语言。

批量处理

为高效处理多个视频,请使用批量端点:

最佳实践

  1. 按照发现工作流: search → trainability → metadata → content 以最大化效率

  2. 在处理单个视频之前缩小搜索结果范围

  3. 在将内容用于 AI 之前始终验证可训练性

  4. 检查 response codes 并为失败的请求实现重试机制

最后更新于

这有帮助吗?