AI 爬取指南

了解如何使用网页爬虫API获取用于 AI 训练的 YouTube 数据。详细了解完整流程，从搜索视频到创建数据库。

本指南将引导您使用 Web Scraper API 的专用来源: youtube_search, youtube_video_trainability, youtube_metadata, youtube_download, youtube_transcript.

第 1 步：搜索视频

首先搜索与您感兴趣的话题相关的视频。

基础搜索

用于快速搜索，返回最多 20 个结果：

{
  "source": "youtube_search",
  "query": "your search term"
}

扩展搜索

用于更全面的结果（最多 700 个结果）：

{
  "source": "youtube_search_max",
  "query": "your search term"
}

使用筛选进行搜索

使用筛选条件精炼搜索：

{
  "source": "youtube_search",
  "query": "your search term",
  "type": "video",
  "duration": "4-20",
  "upload_date": "this_month",
  "sort_by": "view_count",
  "hd": true
}

根据您的具体需求使用适当的筛选以缩小结果范围。可选项包括内容类型（video、channel、playlist）、时长、上传日期和质量设置。

第 2 步：从搜索结果中提取视频 ID

在收到搜索结果后，提取 video IDs 以便进一步处理。在来自 youtube_search 或 youtube_search_max的响应中，视频 ID 可直接在每个结果项的 videoId 字段中获得，如以下示例响应片段所示：

{
    "results": [
        {
            "content": [
                {
                    "videoId": "LK9XuImr8Xg",  // This is the video ID you need
                    "thumbnail": {
                        "thumbnails": [
                            {
                                "url": "https://i.ytimg.com/vi/LK9XuImr8Xg/hq720_2.jpg?sqp=-oaymwE2COgCEMoBSFXyq4qpAygIARUAAIhCGABwAcABBvABAfgBtgiAAoAPigIMCAAQARhaIGUoLTAP&rs=AOn4CLDTvqEgoE2ZNfnn3EalF2ujcthVNw",
                                "width": 360,
                                "height": 202
                            }
                        ]
                    },
                    "title": {
                        // title details
                    }
                }
            ]
        }
    ]
}

将这些视频 ID 提取到列表中，以便在后续的 API 调用中使用。

第 3 步：检查 AI 训练资格

在下载或使用视频进行 AI 训练之前，检查其资格：

{
  "source": "youtube_video_trainability",
  "video_id": "rFNDylrjn_w"
}

响应将指示该视频是否可用于 AI 训练：

["all"] - 允许所有方进行训练
["none"] - 不允许任何方进行训练
["party1", "party2", ...] - 仅允许特定方进行训练

第 4 步：获取视频元数据

收集有关视频的附加信息，以进一步评估其质量和相关性：

{
  "source": "youtube_metadata",
  "query": "VIDEO_ID",
  "parse": true
}

响应将包含诸如浏览次数、评论、评分和其他可帮助您评估内容质量的指标的元数据。

参数 parse 必须设置为 true 用于元数据来源。

第 5 步：从选定视频检索内容

在根据资格和元数据识别出高质量且可训练的视频后，您可以继续检索内容。此过程可以并行进行两个步骤：

5.1 下载视频/音频内容

{
  "source": "youtube_download",
  "query": "VIDEO_ID",
  "storage_type": "s3",
  "storage_url": "s3://your-bucket/your-folder/"
}

下载的其他选项：

{
  "source": "youtube_download",
  "query": "VIDEO_ID",
  "storage_type": "s3",
  "storage_url": "s3://your-bucket/your-folder/",
  "context": [
    {
      "key": "download_type",
      "value": "video"
    },
    {
      "key": "video_quality",
      "value": "1080"
    }
  ]
}

此来源仅通过异步的 Push-Pull integration 和 Cloud Storage 功能可用。

注意：

视频最长可达 3 小时
默认分辨率为 720p（可自定义）
您可以指定仅音频、仅视频或两者

5.2 检索视频转录文本

转录文本不同于隐藏式字幕 (CC)。并非所有视频在所有语言下都有可用的转录文本。如果指定语言的转录不存在，API 将返回一个 404 status code.

检查视频是否有转录：

检查转录可用性的最有效方法是查看视频元数据 （第 4 步），其中包含以下字段：

{
    "is_transcript_available": true,
    "generated_subtitle_languages": [
        "en"
    ],
    "generated_transcript_languages": [
        "en"
    ]
}

这种方法比发出会导致 404 errors, which are billable.

更具成本效益。

{
  如果元数据显示有可用的转录，您可以使用以下方式检索：
  "query": "VIDEO_ID",
  "context": [
    {
      "source": "youtube_transcript",
      "key": "language_code",
    }
  ]
}

"value": "en"

{
  如果元数据显示有可用的转录，您可以使用以下方式检索：
  "query": "VIDEO_ID",
  "context": [
    {
      "source": "youtube_transcript",
      "key": "language_code",
    },
    {
      对于有人工创建转录的视频，请指定：
      "key": "transcript_origin",
    }
  ]
}

"value": "uploader_provided"

检查视频是否有手动转录： 在 YouTube 上，点击视频下方的 “...” 菜单，然后在菜单选项中查找 “显示转录”

如果此选项缺失，则该视频没有可用的转录。存在时，您可以点击它以查看可用的转录语言。

批量处理

{
  "source": "youtube_video_trainability",
  为高效处理多个视频，请使用批量端点：
}

"query": ["VIDEO_ID_1", "VIDEO_ID_2", "VIDEO_ID_3"]

最佳实践 按以下发现工作流执行： search → trainability → metadata → content
以最大化效率
在处理单个视频之前先缩小搜索结果范围
在使用内容进行 AI 训练前始终验证可训练性检查 response codes

最后更新于1个月前

这有帮助吗？

下午好

hashtag第 1 步：搜索视频

hashtag基础搜索

hashtag扩展搜索

hashtag使用筛选进行搜索

hashtag第 2 步：从搜索结果中提取视频 ID

hashtag第 3 步：检查 AI 训练资格

hashtag第 4 步：获取视频元数据

hashtag第 5 步：从选定视频检索内容

hashtag5.1 下载视频/音频内容

hashtag5.2 检索视频转录文本

hashtag检查视频是否有转录：

hashtag"value": "uploader_provided"

hashtag如果此选项缺失，则该视频没有可用的转录。存在时，您可以点击它以查看可用的转录语言。

hashtag"query": ["VIDEO_ID_1", "VIDEO_ID_2", "VIDEO_ID_3"]

第 1 步：搜索视频

基础搜索

扩展搜索

使用筛选进行搜索

第 2 步：从搜索结果中提取视频 ID

第 3 步：检查 AI 训练资格

第 4 步：获取视频元数据

第 5 步：从选定视频检索内容

5.1 下载视频/音频内容

5.2 检索视频转录文本

检查视频是否有转录：

"value": "uploader_provided"

如果此选项缺失，则该视频没有可用的转录。存在时，您可以点击它以查看可用的转录语言。

"query": ["VIDEO_ID_1", "VIDEO_ID_2", "VIDEO_ID_3"]