For the complete documentation index, see llms.txt. This page is also available as Markdown.

Guía de scraping para IA

Aprende cómo obtener datos de YouTube para entrenamiento de IA usando Web Scraper API. Descubre más sobre el flujo de trabajo completo, desde la búsqueda de videos hasta la creación de una base de datos.

Esta guía te llevará paso a paso por el flujo de trabajo para recopilar y filtrar datos de YouTube con fines de entrenamiento de IA usando las fuentes especializadas de Web Scraper API: youtube_search, youtube_video_trainability, youtube_metadata, youtube_download, youtube_transcript.

Paso 1: Buscar videos

Comienza buscando videos relacionados con tu tema de interés.

Búsqueda básica

Para una búsqueda rápida que devuelve hasta 20 resultados:

{
  "source": "youtube_search",
  "query": "término de búsqueda"
}

Búsqueda ampliada

Para resultados más completos (hasta 700 resultados):

{
  "source": "youtube_search_max",
  "query": "término de búsqueda"
}

Búsqueda con filtros

Refina tu búsqueda con filtros:

Usa los filtros adecuados para acotar los resultados según tus necesidades específicas. Las opciones incluyen tipo de contenido (video, canal, lista de reproducción), duración, fecha de subida y ajustes de calidad.

Paso 2: Extraer IDs de video de los resultados de búsqueda

Después de recibir los resultados de búsqueda, extrae los IDs de video para procesarlos más adelante. En la respuesta de youtube_search o youtube_search_max, los IDs de video están disponibles directamente en el videoId campo de cada elemento de resultado, como se muestra en este fragmento de respuesta de ejemplo:

Extrae estos IDs de video en una lista para usarlos en llamadas posteriores a la API.

Paso 3: Comprobar la elegibilidad para entrenamiento de IA

Antes de descargar o usar videos para entrenamiento de IA, verifica su elegibilidad:

La respuesta indicará si el video puede usarse con fines de entrenamiento de IA:

  • ["all"] - Entrenamiento permitido para todas las partes

  • ["none"] - No se permite entrenamiento para ninguna parte

  • ["party1", "party2", ...] - Entrenamiento permitido solo para partes específicas

Paso 4: Obtener metadatos del video

Recopila información adicional sobre los videos para evaluar mejor su calidad y relevancia:

La respuesta contendrá metadatos como recuentos de vistas, comentarios, valoraciones y otras métricas que pueden ayudarte a evaluar la calidad del contenido.

Paso 5: Recuperar contenido de los videos seleccionados

Después de identificar videos de alta calidad y aptos para entrenamiento según su elegibilidad y metadatos, puedes proceder con la recuperación del contenido. Esto se puede hacer en dos pasos paralelos:

5.1 Descargar contenido de video/audio

Opciones adicionales para la descarga:

Esta fuente solo está disponible a través de la integración asíncrona Push-Pull y de Almacenamiento en la nube

Nota:

  • Los videos pueden tener hasta 3 horas de duración

  • La resolución predeterminada es 720p (se puede personalizar)

  • Puedes especificar solo audio, solo video o ambos

5.2 Recuperar transcripciones de video

Comprobar si un video tiene transcripciones:

La forma más eficiente de comprobar la disponibilidad de transcripciones es examinando los metadatos del video (Paso 4), que incluyen estos campos:

Este enfoque es más rentable que hacer solicitudes que resulten en 404 errores, que son facturables.

Si los metadatos muestran que hay transcripciones disponibles, puedes recuperarlas con:

Para videos con transcripciones creadas manualmente, especifica:

Comprobar si un video tiene transcripciones (manualmente):

En YouTube, haz clic en el menú "..." debajo del video y luego busca "Show transcript" en las opciones del menú. Si esta opción no aparece, el video no tiene transcripciones disponibles. Cuando está presente, puedes hacer clic para ver los idiomas de transcripción disponibles.

Procesamiento por lotes

Para procesar eficientemente varios videos, usa endpoints por lotes:

Buenas prácticas

  1. Sigue el flujo de descubrimiento de búsqueda → elegibilidad para entrenamiento → metadatos → contenido para maximizar la eficiencia

  2. Reduce los resultados de búsqueda antes de procesar videos individuales

  3. Verifica siempre la elegibilidad para entrenamiento antes de usar contenido para IA

  4. Comprueba los códigos de respuesta e implementa reintentos para solicitudes fallidas

Última actualización

¿Te fue útil?