circle-check
Documentation has been updated: see help center and changelog in one place.

Guía de scraping para AI

Aprende cómo obtener datos de YouTube para entrenamiento de AI usando el Web Scraper API. Conoce el flujo de trabajo completo, desde la búsqueda de videos hasta la creación de una base de datos.

Esta guía le mostrará el flujo de trabajo para recopilar y filtrar datos de YouTube con fines de entrenamiento de IA usando las fuentes especializadas de Web Scraper APIarrow-up-right: youtube_search, youtube_video_trainability, youtube_metadata, youtube_download, youtube_transcript.

Paso 1: Buscar videos

Comience buscando videos relacionados con su tema de interés.

Búsqueda básica

Para una búsqueda rápida que devuelva hasta 20 resultados:

{
  "source": "youtube_search",
  "query": "su término de búsqueda"
}

Búsqueda extendida

Para resultados más completos (hasta 700 resultados):

{
  "source": "youtube_search_max",
  "query": "su término de búsqueda"
}

Buscar con filtros

Refine su búsqueda con filtros:

circle-info

Use los filtros apropiados para reducir los resultados según sus necesidades específicas. Las opciones incluyen tipo de contenido (video, canal, lista de reproducción), duración, fecha de carga y ajustes de calidad.

Paso 2: Extraer IDs de video de los resultados de búsqueda

Después de recibir los resultados de búsqueda, extraiga los IDs de video para un procesamiento posterior. En la respuesta de youtube_search o youtube_search_max, los IDs de video están disponibles directamente en el videoId campo de cada elemento de resultado, como se muestra en este fragmento de respuesta de ejemplo:

Extraiga estos IDs de video a una lista para usarlos en llamadas API posteriores.

Paso 3: Verificar elegibilidad para entrenamiento de IA

Antes de descargar o usar videos para entrenamiento de IA, verifique su elegibilidad:

La respuesta indicará si el video puede usarse con fines de entrenamiento de IA:

  • ["all"] - Entrenamiento permitido para todas las partes

  • ["none"] - No se permite entrenamiento para ninguna parte

  • ["party1", "party2", ...] - Entrenamiento permitido solo para partes específicas

Paso 4: Obtener metadata del video

Recoja información adicional sobre los videos para evaluar aún más su calidad y relevancia:

La respuesta contendrá metadata como recuentos de vistas, comentarios, valoraciones y otras métricas que pueden ayudarle a evaluar la calidad del contenido.

circle-check

Paso 5: Recuperar contenido de los videos seleccionados

Después de identificar videos entrenables y de alta calidad según su elegibilidad y metadata, puede proceder con la recuperación de contenido. Esto se puede hacer en dos pasos paralelos:

5.1 Descargar contenido de video/audio

Opciones adicionales para la descarga:

circle-info

Esta fuente solo está disponible a través de la integración asíncrona Push-Pull y Cloud Storage característica.

Nota:

  • Los videos pueden tener hasta 3 horas de duración

  • La resolución predeterminada es 720p (se puede personalizar)

  • Puede especificar solo audio, solo video o ambos

5.2 Recuperar transcripciones de video

triangle-exclamation

Comprobar si un video tiene transcripciones:

La forma más eficiente de comprobar la disponibilidad de transcripciones es examinando la metadata del video (Paso 4), que incluye estos campos:

circle-info

Este enfoque es más rentable que hacer solicitudes que resulten en 404 errores, los cuales son facturables.

Si la metadata muestra que hay transcripciones disponibles, puede recuperarlas con:

Para videos con transcripciones creadas manualmente, especifique:

Comprobar si un video tiene transcripciones (manualmente):

En YouTube, haga clic en el menú "..." debajo del video y luego busque "Mostrar transcripción" en las opciones del menú. Si esta opción falta, el video no tiene transcripciones disponibles. Cuando esté presente, puede hacer clic para ver los idiomas de transcripción disponibles.

Procesamiento masivo

Para el procesamiento eficiente de múltiples videos, use endpoints por lote:

Buenas prácticas

  1. Siga el flujo de descubrimiento desde search → trainability → metadata → content para maximizar la eficiencia

  2. Reduzca los resultados de búsqueda antes de procesar videos individuales

  3. Verifique siempre la elegibilidad para entrenamiento antes de usar contenido para IA

  4. Compruebe códigos de respuesta e implemente reintentos para las solicitudes fallidas

Última actualización

¿Te fue útil?