Guia de Raspagem para IA

Aprenda como obter dados do YouTube para treinamento de IA usando a Web Scraper API. Saiba mais sobre o fluxo completo, da busca por vídeos à criação de um banco de dados.

Este guia vai mostrar o fluxo de trabalho para coletar e filtrar dados do YouTube para fins de treinamento de IA usando as fontes especializadas do Web Scraper API: youtube_search, youtube_video_trainability, youtube_metadata, youtube_download, youtube_transcript.

Etapa 1: Pesquisar vídeos

Comece pesquisando vídeos relacionados ao seu tópico de interesse.

Pesquisa básica

Para uma pesquisa rápida que retorna até 20 resultados:

{
  "source": "youtube_search",
  "query": "seu termo de pesquisa"
}

Pesquisa विस्तendida

Para resultados mais completos (até 700 resultados):

{
  "source": "youtube_search_max",
  "query": "seu termo de pesquisa"
}

Pesquisa com filtros

Refine sua pesquisa com filtros:

Use os filtros apropriados para restringir os resultados com base nas suas necessidades específicas. As opções incluem tipo de conteúdo (vídeo, canal, playlist), duração, data de envio e configurações de qualidade.

Etapa 2: Extrair IDs dos vídeos dos resultados da pesquisa

Após receber os resultados da pesquisa, extraia os IDs dos vídeos para processamento posterior. Na resposta de youtube_search ou youtube_search_max, os IDs dos vídeos estão disponíveis diretamente no campo videoId de cada item do resultado, como mostrado neste trecho de exemplo de resposta:

Extraia esses IDs dos vídeos para uma lista para uso em chamadas de API subsequentes.

Etapa 3: Verificar elegibilidade para treinamento de IA

Antes de baixar ou usar vídeos para treinamento de IA, verifique a elegibilidade deles:

A resposta indicará se o vídeo pode ser usado para fins de treinamento de IA:

  • ["all"] - Treinamento permitido para todas as partes

  • ["none"] - Nenhum treinamento permitido para qualquer parte

  • ["party1", "party2", ...] - Treinamento permitido apenas para partes específicas

Etapa 4: Obter metadados do vídeo

Colete informações adicionais sobre os vídeos para avaliar melhor sua qualidade e relevância:

A resposta conterá metadados como contagens de visualizações, comentários, avaliações e outras métricas que podem ajudar você a avaliar a qualidade do conteúdo.

Etapa 5: Recuperar conteúdo dos vídeos selecionados

Depois de identificar vídeos de alta qualidade e treináveis com base na elegibilidade e nos metadados, você pode prosseguir com a recuperação do conteúdo. Isso pode ser feito em duas etapas paralelas:

5.1 Baixar conteúdo de vídeo/áudio

Opções adicionais para download:

Esta fonte está disponível apenas por meio da integração assíncrona Push-Pull e Cloud Storage recurso.

Observação:

  • Os vídeos podem ter até 3 horas de duração

  • A resolução padrão é 720p (pode ser personalizada)

  • Você pode especificar somente áudio, somente vídeo ou ambos

5.2 Recuperar transcrições do vídeo

Verificando se um vídeo tem transcrições:

A maneira mais eficiente de verificar a disponibilidade de transcrições é examinando os metadados do vídeo (Etapa 4), que incluem estes campos:

Essa abordagem é mais econômica do que fazer solicitações que resultam em 404 erros, que são cobrados.

Se os metadados mostrarem que as transcrições estão disponíveis, você pode recuperá-las com:

Para vídeos com transcrições criadas manualmente, especifique:

Verificando se um vídeo tem transcrições (manualmente):

No YouTube, clique no menu "..." abaixo do vídeo e procure por "Show transcript" nas opções do menu. Se essa opção estiver ausente, o vídeo não tem transcrições disponíveis. Quando estiver presente, você pode clicar nela para ver os idiomas de transcrição disponíveis.

Processamento em lote

Para um processamento eficiente de vários vídeos, use endpoints em lote:

Melhores práticas

  1. Siga o fluxo de descoberta de pesquisa → trainability → metadados → conteúdo para maximizar a eficiência

  2. Restrinja os resultados da pesquisa antes de processar vídeos individuais

  3. Sempre verifique a treinabilidade antes de usar conteúdo para IA

  4. Verifique códigos de resposta e implemente tentativas de nova execução para solicitações com falha

Atualizado

Isto foi útil?