Legenda Automática Perfeita: Whisper + CapCut Sem Erros Tutoriais
047 14 Mar 2026 · 7 min de leitura

Legenda Automática Perfeita: Whisper + CapCut Sem Erros

Gerar legenda automática para vídeo com precisão real em português brasileiro é um dos maiores desafios de produção de conteúdo. Neste guia, você vai aprender quando usar o Whisper da OpenAI, quando usar o CapCut diretamente, e como combinar os dois para ter legendas quase perfeitas sem gastar horas corrigindo erros.

O Problema das Ferramentas de Legenda Automática para Vídeo

O YouTube gera legendas automáticas para qualquer vídeo. No entanto, para sotaques brasileiros, termos técnicos e falas mais rápidas, o erro rate é alto. O CapCut tem uma função de auto-legenda que funciona melhor que o YouTube, mas também comete erros. Por isso, o Whisper da OpenAI muda esse jogo: é o modelo de transcrição mais preciso disponível para português brasileiro, roda localmente no seu computador e gera arquivos SRT prontos para importar no CapCut.

Portanto, antes de instalar qualquer coisa, entenda quando cada ferramenta faz mais sentido: isso vai economizar muito tempo.

Quando Usar Cada Ferramenta de Legenda Automática para Vídeo

Use o CapCut diretamente quando:

  • Seu áudio tem qualidade excelente e você fala devagar com dicção clara
  • O vocabulário é cotidiano, sem muitos termos técnicos
  • Você quer resultado rápido e está disposto a corrigir pequenos erros manualmente
  • Não tem Python instalado e não quer instalar agora

Use o Whisper para legenda automática de vídeo quando:

  • Você tem sotaque regional forte ou vocabulário técnico específico do nicho
  • O áudio tem algum ruído de fundo (ventilador, rua, ar-condicionado)
  • Você fala rápido ou há sobreposição de falas em entrevistas
  • A precisão é crítica: vídeos educacionais, jurídicos ou médicos
  • Você quer o arquivo SRT para usar em múltiplas plataformas

A Combinação Ideal para Legenda Automática Profissional

Para máxima qualidade com o menor esforço, use Whisper para a transcrição e CapCut para o estilo e posicionamento. Dessa forma, o Whisper faz a parte difícil e o CapCut faz a parte visual.

Instalando o Whisper para Legenda Automática de Vídeo

O Whisper requer Python. Se você nunca instalou Python antes, não se preocupe: este guia cobre tudo do zero.

Passo 1: Verificar e Instalar o Python

Abra o terminal e execute python --version. Se aparecer “Python 3.10.x” ou superior, você já tem Python. Caso contrário, instale: no Mac via Homebrew com brew install python; no Windows, acesse python.org/downloads e marque “Add Python to PATH” durante a instalação; no Linux: sudo apt update && sudo apt install python3 python3-pip.

Passo 2: Instalar o Whisper e o ffmpeg

pip install openai-whisper

Em seguida, instale o ffmpeg: no Mac, brew install ffmpeg; no Linux, sudo apt install ffmpeg; no Windows, baixe em ffmpeg.org/download.html e adicione ao PATH do sistema. Após a instalação, execute whisper --help para confirmar que está funcionando.

Rodando a Transcrição e Gerando Legenda Automática para Vídeo

Comando Básico

whisper "caminho/para/seu/video.mp4" --language pt --output_format srt

Escolhendo o Modelo Certo

O Whisper tem 5 modelos. Para a maioria dos criadores, o modelo “medium” é o recomendado: boa precisão para português brasileiro e velocidade aceitável. O modelo “large” oferece maior precisão, mas processa mais devagar. Use-o para vídeos com sotaque forte ou muito ruído.

whisper "video.mp4" --language pt --model medium --output_format srt --word_timestamps True

O parâmetro --word_timestamps True melhora a precisão do timing. Além disso, você pode gerar outros formatos: --output_format txt para texto puro (útil para descrição do vídeo), --output_format vtt para plataformas como Vimeo.

Corrigindo Erros no SRT e Importando no CapCut

Mesmo com o Whisper, alguns erros vão acontecer. No entanto, são muito menos do que com o CapCut ou YouTube. O arquivo SRT é texto simples: abra no Bloco de Notas, TextEdit ou VSCode e corrija. Para erros repetidos, use Find & Replace para corrigir todas as ocorrências de uma vez.

Para corrigir erros em massa com contexto, use o ChatGPT:

Aqui está uma transcrição de um vídeo sobre [tema] em formato SRT. Corrija os erros mantendo o formato SRT exato. Termos específicos que devem aparecer: [liste palavras técnicas]. Retorne apenas o SRT corrigido, sem comentários.

Importando a Legenda Automática no CapCut

Primeiro, abra o CapCut Desktop e crie um novo projeto. Em seguida, importe o vídeo. Depois, clique em “Texto” → “Importar legenda” → selecione o arquivo SRT. O CapCut criará automaticamente os blocos de texto sincronizados com os timestamps.

Para o estilo das legendas: selecione todos os blocos e configure fonte bold (Montserrat, Roboto ou Anton), tamanho mínimo de 50-60pt em 1080p, e texto branco com contorno preto. Finalmente, posicione as legendas na parte inferior para YouTube horizontal ou no centro para Shorts e Reels.

Configuração de Legenda Automática para Diferentes Plataformas

YouTube (Horizontal, 16:9)

  • Posição: parte inferior, 80px de margem do fundo
  • Fonte: 50-60pt, máximo 2 linhas por bloco
  • Envie o SRT separadamente ao YouTube para indexação: isso melhora o SEO do vídeo

Instagram Reels / TikTok (Vertical, 9:16)

  • Posição: centro da tela, levemente abaixo do meio
  • Fonte maior: 70-80pt para telas pequenas
  • Estilo karaokê (uma palavra por vez) converte melhor em formato vertical

Benchmark: Comparação Real de Precisão de Legenda Automática

Para contextualizar por que o Whisper vale o esforço de instalação:

  • Whisper medium: ~92-95% de precisão para português claro, ~85-90% para sotaques regionais
  • CapCut Auto-legenda: ~85-90% para português claro, ~75-80% para sotaques
  • YouTube Auto-legendas: ~80-85% para português claro, ~70-75% para sotaques
  • Whisper large: ~95-97% de precisão para quase todos os sotaques brasileiros

Em um vídeo de 10 minutos com 1.500 palavras, a diferença de 5-10 pontos percentuais significa 75-150 erros a menos para corrigir manualmente. Portanto, para quem publica 3 vídeos por semana, isso representa 1-2 horas economizadas toda semana só na revisão de legendas.

Solução de Problemas Comuns

Se o Whisper demora muito para processar, extraia o áudio antes com ffmpeg e transcreva apenas o arquivo de áudio. Se o SRT importado no CapCut estiver com timing desalinhado, certifique-se de que você rodou o Whisper no vídeo final editado, não na gravação bruta. Se o comando whisper não for reconhecido, tente python -m whisper "video.mp4" --language pt --output_format srt.

Para melhorar a qualidade do áudio antes de transcrever, use o Adobe Podcast Enhance (podcast.adobe.com) gratuitamente. Essa ferramenta limpa gravações com ruído de fundo e melhora dramaticamente a precisão de qualquer ferramenta de legenda automática para vídeo.

Veja mais sobre automação de produção de conteúdo no nosso guia sobre como produzir 5 vídeos por semana sozinho com IA e o artigo sobre como criar um briefing de vídeo com IA.

Qualidade de Áudio: A Base da Legenda Automática para Vídeo

Nenhuma ferramenta consegue compensar áudio de má qualidade. Por isso, mantenha o microfone a menos de 30cm da boca, grave em ambiente com absorção de som, evite ruído de fundo contínuo e fale devagar em termos técnicos ou nomes específicos.

Em resumo, o processo ideal é: grave e edite o vídeo no CapCut, exporte sem legendas em 1080p, rode o Whisper no vídeo exportado, corrija o SRT em 5-15 minutos, volte ao CapCut com o SRT corrigido, aplique o estilo de legenda e exporte o vídeo final. Assim, você garante que as legendas estão sincronizadas com o vídeo final, não com a gravação bruta.

Leia também

AdSense — In-Article · 728×90
Canal no YouTube

Aprenda mais no @eoph

Vídeos práticos sobre IA, produção de conteúdo e tecnologia. Sem enrolação.