Documentation has been updated: see help center and changelog in one place.

面向 AI 的 YouTube 抓取指南

了解如何使用 Web Scraper API 获取用于 AI 训练的 YouTube 数据。了解从搜索视频到创建数据库的完整工作流。

本指南将介绍使用 网页爬虫API的专用来源: youtube_search, youtube_video_trainability, youtube_metadata, youtube_download, youtube_transcript.

步骤 1:搜索视频

首先搜索与您感兴趣主题相关的视频。

基本搜索

用于返回最多 20 个结果的快速搜索:

{
  "source": "youtube_search",
  "query": "your search term"
}

扩展搜索

用于更全面的结果(最多 700 个结果):

{
  "source": "youtube_search_max",
  "query": "your search term"
}

带过滤器的搜索

使用过滤器精炼搜索:

{
  "source": "youtube_search",
  "query": "your search term",
  "type": "video",
  "duration": "4-20",
  "upload_date": "this_month",
  "sort_by": "view_count",
  "hd": true
}

使用适当的过滤器根据您的具体需求缩小结果范围。选项包括内容类型(video、channel、playlist)、时长、上传日期和质量设置。

步骤 2:从搜索结果中提取视频 ID

在收到搜索结果后,提取 video IDs 以便进一步处理。在来自 youtube_searchyoutube_search_max的响应中,视频 ID 可直接在每个结果项的 videoId 字段中获得,如下示例响应片段所示:

{
    "results": [
        {
            "content": [
                {
                    "videoId": "LK9XuImr8Xg",  // This is the video ID you need
                    "thumbnail": {
                        "thumbnails": [
                            {
                                "url": "https://i.ytimg.com/vi/LK9XuImr8Xg/hq720_2.jpg?sqp=-oaymwE2COgCEMoBSFXyq4qpAygIARUAAIhCGABwAcABBvABAfgBtgiAAoAPigIMCAAQARhaIGUoLTAP&rs=AOn4CLDTvqEgoE2ZNfnn3EalF2ujcthVNw",
                                "width": 360,
                                "height": 202
                            }
                        ]
                    },
                    "title": {
                        // title details
                    }
                }
            ]
        }
    ]
}

将这些视频 ID 提取到列表中以供后续 API 调用使用。

步骤 3:检查 AI 训练合规性

在下载或使用视频进行 AI 训练之前,检查它们的合规性:

{
  "source": "youtube_video_trainability",
  "video_id": "rFNDylrjn_w"
}

响应会指示该视频是否可以用于 AI 训练用途:

  • ["all"] - 允许所有方进行训练

  • ["none"] - 不允许任何方进行训练

  • ["party1", "party2", ...] - 仅允许特定方进行训练

步骤 4:获取视频元数据

收集有关视频的附加信息,以进一步评估其质量和相关性:

{
  "source": "youtube_metadata",
  "query": "VIDEO_ID",
  "parse": true
}

响应将包含诸如观看次数、评论、评分和其他可帮助您评估内容质量的指标的元数据。

步骤 5:检索所选视频的内容

在根据合规性和元数据识别出高质量、可训练的视频后,您可以继续进行内容检索。这可以并行执行两个步骤:

5.1 下载视频/音频内容

{
  "source": "youtube_download",
  "query": "VIDEO_ID",
  "storage_type": "s3",
  "storage_url": "s3://your-bucket/your-folder/"
}

下载的其他选项:

{
  "source": "youtube_download",
  "query": "VIDEO_ID",
  "storage_type": "s3",
  "storage_url": "s3://your-bucket/your-folder/",
  "context": [
    {
      "key": "download_type",
      "value": "video"
    },
    {
      "key": "video_quality",
      "value": "1080"
    }
  ]
}

此来源仅通过异步 Push-Pull integrationCloud Storage 功能可用。

注意:

  • 视频长度可达 3 小时

  • 默认分辨率为 720p(可自定义)

  • 您可以指定仅音频、仅视频或同时下载两者

5.2 获取视频转录

检查视频是否有转录:

检查转录可用性的最高效方法是查看视频元数据 (步骤 4),其中包括这些字段:

{
    "is_transcript_available": true,
    "generated_subtitle_languages": [
        "en"
    ],
    "generated_transcript_languages": [
        "en"
    ]
}

这种方法比发出会导致 404 errors, which are billable.

如果元数据显示可用转录,您可以通过以下方式检索它们:

{
  "source": "youtube_transcript",
  "query": "VIDEO_ID",
  "context": [
    {
      "key": "language_code",
      "value": "en"
    }
  ]
}

对于具有人工创建转录的视频,请指定:

{
  "source": "youtube_transcript",
  "query": "VIDEO_ID",
  "context": [
    {
      "key": "language_code",
      "value": "en"
    },
    {
      "key": "transcript_origin",
      "value": "uploader_provided"
    }
  ]
}

手动检查视频是否有转录:

在 YouTube 上,点击视频下方的 "..." 菜单,然后查找 "Show transcript" 在菜单选项中。如果此选项缺失,则该视频没有可用的转录。存在时,您可以点击它以查看可用的转录语言。

批量处理

为高效处理多个视频,请使用批量端点:

{
  "source": "youtube_video_trainability",
  "query": ["VIDEO_ID_1", "VIDEO_ID_2", "VIDEO_ID_3"]
}

最佳实践

  1. 按照发现工作流: search → trainability → metadata → content 以最大化效率

  2. 在处理单个视频之前先缩小搜索结果范围

  3. 在使用内容进行 AI 之前始终验证可训练性

  4. 检查 response codes 并为失败的请求实现重试机制

最后更新于

这有帮助吗?