Guia de scraping do YouTube para IA
Aprenda como obter dados do YouTube para treinamento de IA usando a Web Scraper API. Saiba mais sobre o fluxo completo, desde a busca de vídeos até a criação de um banco de dados.
Este guia irá orientá-lo pelo fluxo de trabalho para coletar e filtrar dados do YouTube para fins de treinamento de IA usando as fontes especializadas do Web Scraper API: youtube_search, youtube_video_trainability, youtube_metadata, youtube_download, youtube_transcript.
Passo 1: Pesquisar vídeos
Comece pesquisando por vídeos relacionados ao seu tema de interesse.
Pesquisa básica
Para uma pesquisa rápida que retorna até 20 resultados:
{
"source": "youtube_search",
"query": "seu termo de pesquisa"
}Pesquisa estendida
Para resultados mais abrangentes (até 700 resultados):
{
"source": "youtube_search_max",
"query": "seu termo de pesquisa"
}Pesquisar com filtros
Aperfeiçoe sua pesquisa com filtros:
Passo 2: Extrair IDs de vídeo dos resultados de pesquisa
Após receber os resultados da pesquisa, extraia os IDs de vídeo para processamento posterior. Na resposta de youtube_search ou youtube_search_max, os IDs de vídeo estão disponíveis diretamente no videoId campo de cada item de resultado, como mostrado neste trecho de resposta de exemplo:
Extraia esses IDs de vídeo para uma lista a ser usada em chamadas de API subsequentes.
Passo 3: Verificar elegibilidade para treinamento de IA
Antes de baixar ou usar vídeos para treinamento de IA, verifique a elegibilidade deles:
A resposta indicará se o vídeo pode ser usado para fins de treinamento de IA:
["all"]- Treinamento permitido para todas as partes["none"]- Nenhum treinamento permitido para qualquer parte["party1", "party2", ...]- Treinamento permitido apenas para partes específicas
Passo 4: Obter metadados do vídeo
Colete informações adicionais sobre os vídeos para avaliar ainda mais a qualidade e a relevância:
A resposta conterá metadados como contagem de visualizações, comentários, avaliações e outras métricas que podem ajudar a avaliar a qualidade do conteúdo.
O parse o parâmetro deve ser definido como true para a fonte de metadados.
Passo 5: Recuperar conteúdo dos vídeos selecionados
Depois de identificar vídeos de alta qualidade e treináveis com base na elegibilidade e nos metadados, você pode prosseguir com a recuperação de conteúdo. Isso pode ser feito em duas etapas paralelas:
5.1 Baixar conteúdo de vídeo/áudio
Opções adicionais para download:
Observação:
Vídeos podem ter até 3 horas de duração
A resolução padrão é 720p (pode ser personalizada)
Você pode especificar apenas áudio, apenas vídeo ou ambos
5.2 Recuperar transcrições de vídeo
Transcrições não são o mesmo que legendas ocultas (CC). Nem todos os vídeos têm transcrições disponíveis em todos os idiomas. Se uma transcrição não existir no idioma especificado, a API retornará um 404 código de status.
Verificando se um vídeo tem transcrições:
A maneira mais eficiente de verificar a disponibilidade de transcrições é examinando os metadados do vídeo (Passo 4), que inclui estes campos:
Se os metadados mostrarem que transcrições estão disponíveis, você pode recuperá-las com:
Para vídeos com transcrições criadas manualmente, especifique:
Verificando se um vídeo tem transcrições (manualmente):
No YouTube, clique no menu "..." abaixo do vídeo e procure "Mostrar transcrição" nas opções do menu. Se essa opção estiver ausente, o vídeo não tem transcrições disponíveis. Quando presente, você pode clicar nela para ver os idiomas de transcrição disponíveis.
Processamento em massa
Para processamento eficiente de múltiplos vídeos, use endpoints em lote:
Boas práticas
Siga o fluxo de descoberta de pesquisa → treinabilidade → metadados → conteúdo para maximizar a eficiência
Reduza os resultados da pesquisa antes de processar vídeos individuais
Sempre verifique a treinabilidade antes de usar o conteúdo para IA
Verifique códigos de resposta e implemente re-tentativas para solicitações que falharem
Atualizado
Isto foi útil?

