Scraping Guide for AI

Aprenda como obter dados do YouTube para treinamento de IA usando a Web Scraper API. Saiba mais sobre o fluxo de trabalho completo, desde a busca por vídeos até a criação de um banco de dados.

Este guia mostrará o fluxo de trabalho para coletar e filtrar dados do YouTube para fins de treinamento de IA usando as fontes especializadas do Web Scraper APIarrow-up-right: youtube_search, youtube_video_trainability, youtube_metadata, youtube_download, youtube_transcript.

Passo 1: Pesquisar vídeos

Comece pesquisando vídeos relacionados ao seu tópico de interesse.

Pesquisa básica

Para uma pesquisa rápida que retorna até 20 resultados:

{
  "source": "youtube_search",
  "query": "your search term"
}

Pesquisa estendida

Para resultados mais abrangentes (até 700 resultados):

{
  "source": "youtube_search_max",
  "query": "your search term"
}

Pesquisar com filtros

Refine sua pesquisa com filtros:

circle-info

Use os filtros apropriados para restringir os resultados com base nas suas necessidades específicas. As opções incluem tipo de conteúdo (vídeo, canal, playlist), duração, data de envio e configurações de qualidade.

Passo 2: Extrair IDs de vídeo dos resultados da pesquisa

Após receber os resultados da pesquisa, extraia os IDs de vídeo para processamento posterior. Na resposta de youtube_search ou youtube_search_max, os IDs de vídeo estão diretamente disponíveis no videoId campo de cada item de resultado, como mostrado neste trecho de exemplo de resposta:

Extraia esses IDs de vídeo para uma lista a ser usada em chamadas de API subsequentes.

Passo 3: Verificar elegibilidade para treinamento de IA

Antes de baixar ou usar vídeos para treinamento de IA, verifique a elegibilidade deles:

A resposta indicará se o vídeo pode ser usado para fins de treinamento de IA:

  • ["all"] - Treinamento permitido para todas as partes

  • ["none"] - Nenhum treinamento permitido para qualquer parte

  • ["party1", "party2", ...] - Treinamento permitido apenas para partes específicas

Passo 4: Obter metadados do vídeo

Colete informações adicionais sobre os vídeos para avaliar melhor sua qualidade e relevância:

A resposta conterá metadados como contagem de visualizações, comentários, avaliações e outras métricas que podem ajudar a avaliar a qualidade do conteúdo.

circle-check

Passo 5: Recuperar conteúdo dos vídeos selecionados

Depois de identificar vídeos de alta qualidade e treináveis com base na elegibilidade e nos metadados, você pode prosseguir com a recuperação de conteúdo. Isso pode ser feito em dois passos paralelos:

5.1 Baixar conteúdo de vídeo/áudio

Opções adicionais para download:

circle-info

Esta fonte está disponível apenas via a integração assíncrona Push-Pull integration e Cloud Storage feature.

Observação:

  • Os vídeos podem ter até 3 horas de duração

  • A resolução padrão é 720p (pode ser personalizada)

  • Você pode especificar apenas áudio, apenas vídeo ou ambos

5.2 Recuperar transcrições de vídeo

triangle-exclamation

Verificando se um vídeo tem transcrições:

A maneira mais eficiente de verificar a disponibilidade de transcrições é examinando os metadados do vídeo (Passo 4), que inclui estes campos:

circle-info

Essa abordagem é mais econômica do que fazer solicitações que resultem em 404 errors, which are billable.

Se os metadados mostrarem que transcrições estão disponíveis, você pode recuperá-las com:

Para vídeos com transcrições criadas manualmente, especifique:

Verificando se um vídeo tem transcrições (manualmente):

No YouTube, clique no menu "..." abaixo do vídeo e procure por "Show transcript" nas opções do menu. Se essa opção estiver ausente, o vídeo não tem transcrições disponíveis. Quando presente, você pode clicá-la para ver os idiomas de transcrição disponíveis.

Processamento em lote

Para processamento eficiente de múltiplos vídeos, use endpoints em lote:

Boas práticas

  1. Siga o fluxo de descoberta de search → trainability → metadata → content para maximizar a eficiência

  2. Reduza os resultados da pesquisa antes de processar vídeos individuais

  3. Sempre verifique a treinabilidade antes de usar o conteúdo para IA

  4. Verifique response codes e implemente novas tentativas para requisições que falharem

Atualizado

Isto foi útil?