面向 AI 的抓取指南

了解如何使用网页爬虫API 获取用于 AI 训练的 YouTube 数据。进一步了解从搜索视频到创建数据库的完整工作流。

本指南将带你了解如何使用 网页爬虫API 的专用源收集和筛选用于 AI 训练的 YouTube 数据的工作流程: youtube_search, youtube_video_trainability, youtube_metadata, youtube_download, youtube_transcript.

第 1 步:搜索视频

首先搜索与你感兴趣主题相关的视频。

基础搜索

如需快速搜索并返回最多 20 个结果:

{
  "source": "youtube_search",
  "query": "your search term"
}

扩展搜索

如需更全面的结果(最多 700 个结果):

{
  "source": "youtube_search_max",
  "query": "your search term"
}

带筛选条件的搜索

使用筛选条件细化搜索:

使用适当的筛选条件,根据你的具体需求缩小结果范围。可选项包括内容类型(视频、频道、播放列表)、时长、上传日期和质量设置。

第 2 步:从搜索结果中提取视频 ID

收到搜索结果后,提取 视频 ID 以供后续处理。在来自 youtube_searchyoutube_search_max的响应中,视频 ID 可直接在 videoId 字段中找到,如以下响应片段所示:

将这些视频 ID 提取到一个列表中,以用于后续的 API 调用。

第 3 步:检查 AI 训练资格

在下载或将视频用于 AI 训练之前,先检查其资格:

响应将指示该视频是否可用于 AI 训练:

  • ["all"] - 允许所有方进行训练

  • ["none"] - 不允许任何一方进行训练

  • ["party1", "party2", ...] - 仅允许特定方进行训练

第 4 步:获取视频元数据

收集有关视频的更多信息,以进一步评估其质量和相关性:

响应将包含查看次数、评论、评分及其他指标等元数据,帮助你评估内容质量。

第 5 步:从选定的视频中检索内容

根据资格和元数据识别出高质量、可训练的视频后,你可以继续检索内容。这可以通过两个并行步骤完成:

5.1 下载视频/音频内容

下载的其他选项:

该源仅可通过异步 Push-Pull 集成Cloud Storage 功能使用。

注意:

  • 视频长度最长可达 3 小时

  • 默认分辨率为 720p(可自定义)

  • 你可以指定仅音频、仅视频或两者都要

5.2 检索视频转录文本

检查视频是否有转录文本:

检查转录文本可用性的最高效方式是查看视频元数据 (第 4 步),其中包含这些字段:

这种方法比发出导致 404 错误的请求更具成本效益,因为这些请求会计费。

如果元数据显示有可用的转录文本,你可以通过以下方式检索:

对于具有手动创建转录文本的视频,请指定:

检查视频是否有转录文本(手动):

在 YouTube 上,点击视频下方的“...”菜单,然后查找 "Show transcript" 这一菜单选项。如果缺少此选项,则该视频没有可用的转录文本。如果存在,你可以点击它查看可用的转录文本语言。

批量处理

如需高效处理多个视频,请使用批量端点:

最佳实践

  1. 遵循从 搜索 → 可训练性 → 元数据 → 内容 的发现工作流程,以最大化效率

  2. 在处理单个视频之前先缩小搜索结果范围

  3. 在将内容用于 AI 之前,务必始终验证可训练性

  4. 检查 响应代码 并对失败的请求实现重试

最后更新于

这有帮助吗?