Gerar legenda automática para vídeo com precisão real em português brasileiro é um dos maiores desafios de produção de conteúdo. Neste guia, você vai aprender quando usar o Whisper da OpenAI, quando usar o CapCut diretamente, e como combinar os dois para ter legendas quase perfeitas sem gastar horas corrigindo erros.
O Problema das Ferramentas de Legenda Automática para Vídeo
O YouTube gera legendas automáticas para qualquer vídeo. No entanto, para sotaques brasileiros, termos técnicos e falas mais rápidas, o erro rate é alto. O CapCut tem uma função de auto-legenda que funciona melhor que o YouTube, mas também comete erros. Por isso, o Whisper da OpenAI muda esse jogo: é o modelo de transcrição mais preciso disponível para português brasileiro, roda localmente no seu computador e gera arquivos SRT prontos para importar no CapCut.
Portanto, antes de instalar qualquer coisa, entenda quando cada ferramenta faz mais sentido: isso vai economizar muito tempo.
Quando Usar Cada Ferramenta de Legenda Automática para Vídeo
Use o CapCut diretamente quando:
- Seu áudio tem qualidade excelente e você fala devagar com dicção clara
- O vocabulário é cotidiano, sem muitos termos técnicos
- Você quer resultado rápido e está disposto a corrigir pequenos erros manualmente
- Não tem Python instalado e não quer instalar agora
Use o Whisper para legenda automática de vídeo quando:
- Você tem sotaque regional forte ou vocabulário técnico específico do nicho
- O áudio tem algum ruído de fundo (ventilador, rua, ar-condicionado)
- Você fala rápido ou há sobreposição de falas em entrevistas
- A precisão é crítica: vídeos educacionais, jurídicos ou médicos
- Você quer o arquivo SRT para usar em múltiplas plataformas
A Combinação Ideal para Legenda Automática Profissional
Para máxima qualidade com o menor esforço, use Whisper para a transcrição e CapCut para o estilo e posicionamento. Dessa forma, o Whisper faz a parte difícil e o CapCut faz a parte visual.
Instalando o Whisper para Legenda Automática de Vídeo
O Whisper requer Python. Se você nunca instalou Python antes, não se preocupe: este guia cobre tudo do zero.
Passo 1: Verificar e Instalar o Python
Abra o terminal e execute python --version. Se aparecer “Python 3.10.x” ou superior, você já tem Python. Caso contrário, instale: no Mac via Homebrew com brew install python; no Windows, acesse python.org/downloads e marque “Add Python to PATH” durante a instalação; no Linux: sudo apt update && sudo apt install python3 python3-pip.
Passo 2: Instalar o Whisper e o ffmpeg
pip install openai-whisper
Em seguida, instale o ffmpeg: no Mac, brew install ffmpeg; no Linux, sudo apt install ffmpeg; no Windows, baixe em ffmpeg.org/download.html e adicione ao PATH do sistema. Após a instalação, execute whisper --help para confirmar que está funcionando.
Rodando a Transcrição e Gerando Legenda Automática para Vídeo
Comando Básico
whisper "caminho/para/seu/video.mp4" --language pt --output_format srt
Escolhendo o Modelo Certo
O Whisper tem 5 modelos. Para a maioria dos criadores, o modelo “medium” é o recomendado: boa precisão para português brasileiro e velocidade aceitável. O modelo “large” oferece maior precisão, mas processa mais devagar. Use-o para vídeos com sotaque forte ou muito ruído.
whisper "video.mp4" --language pt --model medium --output_format srt --word_timestamps True
O parâmetro --word_timestamps True melhora a precisão do timing. Além disso, você pode gerar outros formatos: --output_format txt para texto puro (útil para descrição do vídeo), --output_format vtt para plataformas como Vimeo.
Corrigindo Erros no SRT e Importando no CapCut
Mesmo com o Whisper, alguns erros vão acontecer. No entanto, são muito menos do que com o CapCut ou YouTube. O arquivo SRT é texto simples: abra no Bloco de Notas, TextEdit ou VSCode e corrija. Para erros repetidos, use Find & Replace para corrigir todas as ocorrências de uma vez.
Para corrigir erros em massa com contexto, use o ChatGPT:
Aqui está uma transcrição de um vídeo sobre [tema] em formato SRT. Corrija os erros mantendo o formato SRT exato. Termos específicos que devem aparecer: [liste palavras técnicas]. Retorne apenas o SRT corrigido, sem comentários.
Importando a Legenda Automática no CapCut
Primeiro, abra o CapCut Desktop e crie um novo projeto. Em seguida, importe o vídeo. Depois, clique em “Texto” → “Importar legenda” → selecione o arquivo SRT. O CapCut criará automaticamente os blocos de texto sincronizados com os timestamps.
Para o estilo das legendas: selecione todos os blocos e configure fonte bold (Montserrat, Roboto ou Anton), tamanho mínimo de 50-60pt em 1080p, e texto branco com contorno preto. Finalmente, posicione as legendas na parte inferior para YouTube horizontal ou no centro para Shorts e Reels.
Configuração de Legenda Automática para Diferentes Plataformas
YouTube (Horizontal, 16:9)
- Posição: parte inferior, 80px de margem do fundo
- Fonte: 50-60pt, máximo 2 linhas por bloco
- Envie o SRT separadamente ao YouTube para indexação: isso melhora o SEO do vídeo
Instagram Reels / TikTok (Vertical, 9:16)
- Posição: centro da tela, levemente abaixo do meio
- Fonte maior: 70-80pt para telas pequenas
- Estilo karaokê (uma palavra por vez) converte melhor em formato vertical
Benchmark: Comparação Real de Precisão de Legenda Automática
Para contextualizar por que o Whisper vale o esforço de instalação:
- Whisper medium: ~92-95% de precisão para português claro, ~85-90% para sotaques regionais
- CapCut Auto-legenda: ~85-90% para português claro, ~75-80% para sotaques
- YouTube Auto-legendas: ~80-85% para português claro, ~70-75% para sotaques
- Whisper large: ~95-97% de precisão para quase todos os sotaques brasileiros
Em um vídeo de 10 minutos com 1.500 palavras, a diferença de 5-10 pontos percentuais significa 75-150 erros a menos para corrigir manualmente. Portanto, para quem publica 3 vídeos por semana, isso representa 1-2 horas economizadas toda semana só na revisão de legendas.
Solução de Problemas Comuns
Se o Whisper demora muito para processar, extraia o áudio antes com ffmpeg e transcreva apenas o arquivo de áudio. Se o SRT importado no CapCut estiver com timing desalinhado, certifique-se de que você rodou o Whisper no vídeo final editado, não na gravação bruta. Se o comando whisper não for reconhecido, tente python -m whisper "video.mp4" --language pt --output_format srt.
Para melhorar a qualidade do áudio antes de transcrever, use o Adobe Podcast Enhance (podcast.adobe.com) gratuitamente. Essa ferramenta limpa gravações com ruído de fundo e melhora dramaticamente a precisão de qualquer ferramenta de legenda automática para vídeo.
Veja mais sobre automação de produção de conteúdo no nosso guia sobre como produzir 5 vídeos por semana sozinho com IA e o artigo sobre como criar um briefing de vídeo com IA.
Qualidade de Áudio: A Base da Legenda Automática para Vídeo
Nenhuma ferramenta consegue compensar áudio de má qualidade. Por isso, mantenha o microfone a menos de 30cm da boca, grave em ambiente com absorção de som, evite ruído de fundo contínuo e fale devagar em termos técnicos ou nomes específicos.
Em resumo, o processo ideal é: grave e edite o vídeo no CapCut, exporte sem legendas em 1080p, rode o Whisper no vídeo exportado, corrija o SRT em 5-15 minutos, volte ao CapCut com o SRT corrigido, aplique o estilo de legenda e exporte o vídeo final. Assim, você garante que as legendas estão sincronizadas com o vídeo final, não com a gravação bruta.
Leia também