面向 AI 的抓取指南

了解如何使用 Web Scraper API 获取用于 AI 训练的 YouTube 数据。了解从搜索视频到创建数据库的完整工作流。

本指南将引导您使用 Web Scraper API 的专用来源arrow-up-right: youtube_search, youtube_video_trainability, youtube_metadata, youtube_download, youtube_transcript.

第 1 步:搜索视频

首先搜索与您感兴趣的话题相关的视频。

基础搜索

用于快速搜索,返回最多 20 个结果:

{
  "source": "youtube_search",
  "query": "your search term"
}

扩展搜索

用于更全面的结果(最多 700 个结果):

{
  "source": "youtube_search_max",
  "query": "your search term"
}

使用筛选进行搜索

使用筛选条件精炼搜索:

circle-info

根据您的具体需求使用适当的筛选以缩小结果范围。可选项包括内容类型(video、channel、playlist)、时长、上传日期和质量设置。

第 2 步:从搜索结果中提取视频 ID

在收到搜索结果后,提取 video IDs 以便进一步处理。在来自 youtube_searchyoutube_search_max的响应中,视频 ID 可直接在每个结果项的 videoId 字段中获得,如以下示例响应片段所示:

将这些视频 ID 提取到列表中,以便在后续的 API 调用中使用。

第 3 步:检查 AI 训练资格

在下载或使用视频进行 AI 训练之前,检查其资格:

响应将指示该视频是否可用于 AI 训练:

  • ["all"] - 允许所有方进行训练

  • ["none"] - 不允许任何方进行训练

  • ["party1", "party2", ...] - 仅允许特定方进行训练

第 4 步:获取视频元数据

收集有关视频的附加信息,以进一步评估其质量和相关性:

响应将包含诸如浏览次数、评论、评分和其他可帮助您评估内容质量的指标的元数据。

circle-check

第 5 步:从选定视频检索内容

在根据资格和元数据识别出高质量且可训练的视频后,您可以继续检索内容。此过程可以并行进行两个步骤:

5.1 下载视频/音频内容

下载的其他选项:

circle-info

此来源仅通过异步的 Push-Pull integrationCloud Storage 功能可用。

注意:

  • 视频最长可达 3 小时

  • 默认分辨率为 720p(可自定义)

  • 您可以指定仅音频、仅视频或两者

5.2 检索视频转录文本

triangle-exclamation

检查视频是否有转录:

检查转录可用性的最有效方法是查看视频元数据 (第 4 步),其中包含以下字段:

circle-info

这种方法比发出会导致 404 errors, which are billable.

更具成本效益。

"value": "en"

"value": "uploader_provided"

检查视频是否有手动转录: 在 YouTube 上,点击视频下方的 “...” 菜单,然后在菜单选项中查找 “显示转录”

如果此选项缺失,则该视频没有可用的转录。存在时,您可以点击它以查看可用的转录语言。

批量处理

"query": ["VIDEO_ID_1", "VIDEO_ID_2", "VIDEO_ID_3"]

  1. 最佳实践 按以下发现工作流执行: search → trainability → metadata → content

  2. 以最大化效率

  3. 在处理单个视频之前先缩小搜索结果范围

  4. 在使用内容进行 AI 训练前始终验证可训练性 检查 response codes

最后更新于

这有帮助吗?