Guia de scraping do YouTube para IA

Aprenda como obter dados do YouTube para treinamento de IA usando a Web Scraper API. Saiba mais sobre o workflow completo, desde a busca por vídeos até a criação de um banco de dados.

Este guia irá orientá-lo pelo fluxo de trabalho para coletar e filtrar dados do YouTube para fins de treinamento de IA usando as fontes especializadas do Web Scraper APIarrow-up-right: youtube_search, youtube_video_trainability, youtube_metadata, youtube_download, youtube_transcript.

Passo 1: Pesquisar vídeos

Comece pesquisando por vídeos relacionados ao seu tema de interesse.

Pesquisa básica

Para uma pesquisa rápida que retorna até 20 resultados:

{
  "source": "youtube_search",
  "query": "seu termo de pesquisa"
}

Pesquisa estendida

Para resultados mais abrangentes (até 700 resultados):

{
  "source": "youtube_search_max",
  "query": "seu termo de pesquisa"
}

Pesquisar com filtros

Aperfeiçoe sua pesquisa com filtros:

circle-info

Use os filtros apropriados para restringir os resultados com base nas suas necessidades específicas. As opções incluem tipo de conteúdo (vídeo, canal, playlist), duração, data de upload e configurações de qualidade.

Passo 2: Extrair IDs de vídeo dos resultados de pesquisa

Após receber os resultados da pesquisa, extraia os IDs de vídeo para processamento posterior. Na resposta de youtube_search ou youtube_search_max, os IDs de vídeo estão disponíveis diretamente no videoId campo de cada item de resultado, como mostrado neste trecho de resposta de exemplo:

Extraia esses IDs de vídeo para uma lista a ser usada em chamadas de API subsequentes.

Passo 3: Verificar elegibilidade para treinamento de IA

Antes de baixar ou usar vídeos para treinamento de IA, verifique a elegibilidade deles:

A resposta indicará se o vídeo pode ser usado para fins de treinamento de IA:

  • ["all"] - Treinamento permitido para todas as partes

  • ["none"] - Nenhum treinamento permitido para qualquer parte

  • ["party1", "party2", ...] - Treinamento permitido apenas para partes específicas

Passo 4: Obter metadados do vídeo

Colete informações adicionais sobre os vídeos para avaliar ainda mais a qualidade e a relevância:

A resposta conterá metadados como contagem de visualizações, comentários, avaliações e outras métricas que podem ajudar a avaliar a qualidade do conteúdo.

circle-check

Passo 5: Recuperar conteúdo dos vídeos selecionados

Depois de identificar vídeos de alta qualidade e treináveis com base na elegibilidade e nos metadados, você pode prosseguir com a recuperação de conteúdo. Isso pode ser feito em duas etapas paralelas:

5.1 Baixar conteúdo de vídeo/áudio

Opções adicionais para download:

circle-info

Esta fonte está disponível apenas via integração assíncrona Push-Pull integration e Cloud Storage recurso.

Observação:

  • Vídeos podem ter até 3 horas de duração

  • A resolução padrão é 720p (pode ser personalizada)

  • Você pode especificar apenas áudio, apenas vídeo ou ambos

5.2 Recuperar transcrições de vídeo

triangle-exclamation

Verificando se um vídeo tem transcrições:

A maneira mais eficiente de verificar a disponibilidade de transcrições é examinando os metadados do vídeo (Passo 4), que inclui estes campos:

circle-info

Esta abordagem é mais econômica do que fazer solicitações que resultem em 404 erros, que são passíveis de cobrança.

Se os metadados mostrarem que transcrições estão disponíveis, você pode recuperá-las com:

Para vídeos com transcrições criadas manualmente, especifique:

Verificando se um vídeo tem transcrições (manualmente):

No YouTube, clique no menu "..." abaixo do vídeo e procure "Mostrar transcrição" nas opções do menu. Se essa opção estiver ausente, o vídeo não tem transcrições disponíveis. Quando presente, você pode clicar nela para ver os idiomas de transcrição disponíveis.

Processamento em massa

Para processamento eficiente de múltiplos vídeos, use endpoints em lote:

Boas práticas

  1. Siga o fluxo de descoberta de pesquisa → treinabilidade → metadados → conteúdo para maximizar a eficiência

  2. Reduza os resultados da pesquisa antes de processar vídeos individuais

  3. Sempre verifique a treinabilidade antes de usar o conteúdo para IA

  4. Verifique códigos de resposta e implemente re-tentativas para solicitações que falharem

Atualizado

Isto foi útil?