Documentation has been updated: see help center and changelog in one place.

Guía de scraping de YouTube para IA

Aprende cómo obtener datos de YouTube para entrenamiento de IA usando la Web Scraper API. Descubre el flujo completo de trabajo, desde buscar vídeos hasta crear una base de datos.

Esta guía te mostrará el flujo de trabajo para recopilar y filtrar datos de YouTube con fines de entrenamiento de IA usando las fuentes especializadas de Web Scraper API: youtube_search, youtube_video_trainability, youtube_metadata, youtube_download, youtube_transcript.

Paso 1: Buscar videos

Comienza buscando videos relacionados con tu tema de interés.

Búsqueda básica

Para una búsqueda rápida que devuelva hasta 20 resultados:

{
  "source": "youtube_search",
  "query": "tu término de búsqueda"
}

Búsqueda extendida

Para resultados más completos (hasta 700 resultados):

{
  "source": "youtube_search_max",
  "query": "tu término de búsqueda"
}

Buscar con filtros

Refina tu búsqueda con filtros:

Usa los filtros apropiados para acotar los resultados según tus necesidades específicas. Las opciones incluyen tipo de contenido (video, channel, playlist), duración, fecha de subida y ajustes de calidad.

Paso 2: Extraer IDs de video de los resultados de búsqueda

Después de recibir los resultados de búsqueda, extrae los IDs de video para su posterior procesamiento. En la respuesta de youtube_search o youtube_search_max, los IDs de video están disponibles directamente en el videoId campo de cada elemento de resultado, como se muestra en este fragmento de respuesta de ejemplo:

Extrae estos IDs de video en una lista para usarlos en llamadas posteriores a la API.

Paso 3: Verificar elegibilidad para entrenamiento de IA

Antes de descargar o usar videos para entrenamiento de IA, verifica su elegibilidad:

La respuesta indicará si el video puede usarse con fines de entrenamiento de IA:

  • ["all"] - Entrenamiento permitido para todas las partes

  • ["none"] - No se permite entrenamiento para ninguna parte

  • ["party1", "party2", ...] - Entrenamiento permitido solo para partes específicas

Paso 4: Obtener metadatos del video

Recopila información adicional sobre los videos para evaluar mejor su calidad y relevancia:

La respuesta contendrá metadatos como recuentos de vistas, comentarios, valoraciones y otras métricas que pueden ayudarte a evaluar la calidad del contenido.

Paso 5: Recuperar contenido de los videos seleccionados

Después de identificar videos de alta calidad y aptos para entrenamiento según su elegibilidad y metadatos, puedes proceder con la recuperación de contenido. Esto se puede hacer en dos pasos paralelos:

5.1 Descargar contenido de video/audio

Opciones adicionales para la descarga:

Esta fuente solo está disponible a través de la integración asíncrona Push-Pull integration y Cloud Storage feature.

Nota:

  • Los videos pueden tener hasta 3 horas de duración

  • La resolución predeterminada es 720p (se puede personalizar)

  • Puedes especificar solo audio, solo video o ambos

5.2 Recuperar transcripciones de video

Verificar si un video tiene transcripciones:

La forma más eficiente de comprobar la disponibilidad de transcripciones es examinando los metadatos del video (Paso 4), que incluyen estos campos:

Este enfoque es más rentable que hacer solicitudes que resulten en 404 errores, los cuales son facturables.

Si los metadatos muestran que hay transcripciones disponibles, puedes recuperarlas con:

Para videos con transcripciones creadas manualmente, especifica:

Verificar si un video tiene transcripciones (manualmente):

En YouTube, haz clic en el menú "..." debajo del video, luego busca "Mostrar transcripción" en las opciones del menú. Si falta esta opción, el video no tiene transcripciones disponibles. Cuando esté presente, puedes hacer clic en ella para ver los idiomas de transcripción disponibles.

Procesamiento por lotes

Para un procesamiento eficiente de múltiples videos, usa endpoints por lotes:

Mejores prácticas

  1. Sigue el flujo de descubrimiento desde search → trainability → metadata → content para maximizar la eficiencia

  2. Reduce los resultados de búsqueda antes de procesar videos individuales

  3. Siempre verifica la aptitud para entrenamiento antes de usar contenido para IA

  4. Comprueba response codes e implementa reintentos para solicitudes fallidas

Última actualización

¿Te fue útil?