Guía de scraping de YouTube para IA
Aprende cómo obtener datos de YouTube para entrenamiento de IA usando la Web Scraper API. Descubre el flujo completo de trabajo, desde buscar vídeos hasta crear una base de datos.
Esta guía te mostrará el flujo de trabajo para recopilar y filtrar datos de YouTube con fines de entrenamiento de IA usando las fuentes especializadas de Web Scraper API: youtube_search, youtube_video_trainability, youtube_metadata, youtube_download, youtube_transcript.
Paso 1: Buscar videos
Comienza buscando videos relacionados con tu tema de interés.
Búsqueda básica
Para una búsqueda rápida que devuelva hasta 20 resultados:
{
"source": "youtube_search",
"query": "tu término de búsqueda"
}Búsqueda extendida
Para resultados más completos (hasta 700 resultados):
{
"source": "youtube_search_max",
"query": "tu término de búsqueda"
}Buscar con filtros
Refina tu búsqueda con filtros:
Paso 2: Extraer IDs de video de los resultados de búsqueda
Después de recibir los resultados de búsqueda, extrae los IDs de video para su posterior procesamiento. En la respuesta de youtube_search o youtube_search_max, los IDs de video están disponibles directamente en el videoId campo de cada elemento de resultado, como se muestra en este fragmento de respuesta de ejemplo:
Extrae estos IDs de video en una lista para usarlos en llamadas posteriores a la API.
Paso 3: Verificar elegibilidad para entrenamiento de IA
Antes de descargar o usar videos para entrenamiento de IA, verifica su elegibilidad:
La respuesta indicará si el video puede usarse con fines de entrenamiento de IA:
["all"]- Entrenamiento permitido para todas las partes["none"]- No se permite entrenamiento para ninguna parte["party1", "party2", ...]- Entrenamiento permitido solo para partes específicas
Paso 4: Obtener metadatos del video
Recopila información adicional sobre los videos para evaluar mejor su calidad y relevancia:
La respuesta contendrá metadatos como recuentos de vistas, comentarios, valoraciones y otras métricas que pueden ayudarte a evaluar la calidad del contenido.
El parse el parámetro debe establecerse en true para la fuente de metadatos.
Paso 5: Recuperar contenido de los videos seleccionados
Después de identificar videos de alta calidad y aptos para entrenamiento según su elegibilidad y metadatos, puedes proceder con la recuperación de contenido. Esto se puede hacer en dos pasos paralelos:
5.1 Descargar contenido de video/audio
Opciones adicionales para la descarga:
Nota:
Los videos pueden tener hasta 3 horas de duración
La resolución predeterminada es 720p (se puede personalizar)
Puedes especificar solo audio, solo video o ambos
5.2 Recuperar transcripciones de video
Las transcripciones no son lo mismo que los subtítulos cerrados (CC). No todos los videos tienen transcripciones disponibles en todos los idiomas. Si no existe una transcripción en el idioma especificado, la API devolverá un 404 código de estado.
Verificar si un video tiene transcripciones:
La forma más eficiente de comprobar la disponibilidad de transcripciones es examinando los metadatos del video (Paso 4), que incluyen estos campos:
Si los metadatos muestran que hay transcripciones disponibles, puedes recuperarlas con:
Para videos con transcripciones creadas manualmente, especifica:
Verificar si un video tiene transcripciones (manualmente):
En YouTube, haz clic en el menú "..." debajo del video, luego busca "Mostrar transcripción" en las opciones del menú. Si falta esta opción, el video no tiene transcripciones disponibles. Cuando esté presente, puedes hacer clic en ella para ver los idiomas de transcripción disponibles.
Procesamiento por lotes
Para un procesamiento eficiente de múltiples videos, usa endpoints por lotes:
Mejores prácticas
Sigue el flujo de descubrimiento desde search → trainability → metadata → content para maximizar la eficiencia
Reduce los resultados de búsqueda antes de procesar videos individuales
Siempre verifica la aptitud para entrenamiento antes de usar contenido para IA
Comprueba response codes e implementa reintentos para solicitudes fallidas
Última actualización
¿Te fue útil?

