O Problema das Legendas Automáticas do YouTube O YouTube gera legendas automáticas para qualquer vídeo. Mas quem já dependeu delas sabe: para sotaques brasileiros, termos técnicos, palavras menos comuns e falas mais rápidas, o erro rate é alto. Aparece "não" onde devia estar "nao", "seção" vira "sessão", nomes próprios ficam…
O Problema das Legendas Automáticas do YouTube
O YouTube gera legendas automáticas para qualquer vídeo. Mas quem já dependeu delas sabe: para sotaques brasileiros, termos técnicos, palavras menos comuns e falas mais rápidas, o erro rate é alto. Aparece “não” onde devia estar “nao”, “seção” vira “sessão”, nomes próprios ficam completamente errados.
O CapCut tem uma função de auto-legenda que funciona melhor que o YouTube para português, mas também comete erros — especialmente em sotaques regionais fortes ou vocabulário específico de nicho.
O Whisper, da OpenAI, muda esse jogo. Ele é o modelo de transcrição mais preciso disponível atualmente para português brasileiro, roda localmente no seu computador (sem custo após instalação) e gera arquivos SRT prontos para importar no CapCut.
Este artigo vai te ensinar a usar os dois: quando usar o Whisper, quando usar o CapCut direto, e como combinar os dois para legendas quase perfeitas sem gastar horas corrigindo erros.
Quando Usar Whisper vs CapCut
Antes de instalar qualquer coisa, entenda quando cada ferramenta faz mais sentido. Isso vai economizar seu tempo.
Use o CapCut diretamente quando:
- Seu áudio tem qualidade excelente (gravado em estúdio, microfone de lapela, pouco ruído de fundo)
- Você fala devagar e com dicção clara
- O vocabulário é cotidiano, sem muitos termos técnicos
- Você quer resultado rápido e está disposto a corrigir pequenos erros manualmente
- Não tem Python instalado no computador e não quer instalar agora
Use o Whisper quando:
- Você tem sotaque regional forte (nordestino, gaúcho, mineiro)
- O vídeo tem muito vocabulário técnico ou termos específicos do nicho
- O áudio tem algum ruído de fundo (ventilador, rua, ar-condicionado)
- Você fala rápido ou sobreposição de falas (entrevistas)
- A precisão é crítica (vídeos educacionais, jurídicos, médicos)
- Você quer o arquivo SRT para usar em múltiplas plataformas (YouTube, Instagram, LinkedIn)
A Combinação Ideal
Para máxima qualidade com o menor esforço: transcreva com Whisper, importe no CapCut para estilo e posicionamento. O Whisper faz a parte difícil (transcrição precisa), o CapCut faz a parte visual (fonte, cor, animação, posição).
Instalando o Whisper: Passo a Passo Completo
O Whisper requer Python. Se você nunca instalou Python antes, não se preocupe — este guia cobre tudo do zero.
Passo 1: Verificar se Python Já Está Instalado
Abra o terminal (no Mac: Command + Espaço, digite “terminal”. No Windows: tecla Windows, digite “cmd” ou “PowerShell”).
Digite:
python --version
Se aparecer algo como “Python 3.10.x” ou superior, você já tem Python. Pule para o Passo 3.
Se aparecer erro ou “Python 2.x”, continue no Passo 2.
Passo 2: Instalar Python
No Mac:
A forma mais fácil é usar o Homebrew. Se não tem o Homebrew instalado, instale primeiro:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
Aguarde a instalação completa. Depois instale o Python:
brew install python
No Windows:
Acesse python.org/downloads e baixe o instalador da versão mais recente (3.11 ou 3.12). Execute o instalador. Importante: marque a opção “Add Python to PATH” antes de clicar em Install. Sem isso, o terminal não vai reconhecer o comando python.
No Linux (Ubuntu/Debian):
sudo apt update && sudo apt install python3 python3-pip
Passo 3: Instalar o Whisper
Com Python instalado, instale o Whisper via pip (gerenciador de pacotes do Python):
pip install openai-whisper
Esse comando baixa e instala o Whisper e todas as dependências. Pode levar de 2 a 10 minutos dependendo da sua conexão.
Se aparecer erro de permissão no Mac/Linux:
pip install openai-whisper --user
Se aparecer erro “pip not found”:
python -m pip install openai-whisper
O Whisper também precisa do ffmpeg para processar arquivos de áudio e vídeo.
No Mac:
brew install ffmpeg
No Windows:
Acesse ffmpeg.org/download.html, baixe a versão Windows builds. Extraia o ZIP, copie a pasta para C:\ffmpeg. Adicione C:\ffmpeg\bin ao PATH do sistema (Painel de Controle > Sistema > Variáveis de Ambiente > adicione ao PATH).
No Linux:
sudo apt install ffmpeg
Passo 4: Verificar a Instalação
Teste se o Whisper está funcionando:
whisper --help
Se aparecer uma lista de opções e parâmetros, a instalação foi bem-sucedida.
Rodando a Transcrição com Whisper
Agora a parte prática: transcrever seu vídeo.
Comando Básico
whisper "caminho/para/seu/video.mp4" --language pt --output_format srt
Substitua "caminho/para/seu/video.mp4" pelo caminho real do seu arquivo. Por exemplo:
No Mac:
whisper "/Users/seuusuario/Desktop/video_tutorial.mp4" --language pt --output_format srt
No Windows:
whisper "C:\Users\seuusuario\Desktop\video_tutorial.mp4" --language pt --output_format srt
O Whisper vai criar um arquivo .srt na mesma pasta do vídeo com o mesmo nome. Se o vídeo é “video_tutorial.mp4”, o SRT será “video_tutorial.srt”.
Escolhendo o Modelo Certo
O Whisper tem 5 modelos com diferentes tamanhos e precisões. Para a maioria dos criadores, o modelo “medium” ou “large” é o recomendado:
- tiny: muito rápido, baixa precisão. Útil apenas para rascunhos
- base: rápido, precisão razoável
- small: balanceado, bom para áudio limpo
- medium: recomendado. Boa precisão para português brasileiro, velocidade aceitável
- large: maior precisão, processa mais devagar. Use para vídeos com sotaque forte ou muito ruído
Para especificar o modelo:
whisper "video.mp4" --language pt --model medium --output_format srt
Na primeira vez que usar um modelo, o Whisper baixa os pesos automaticamente. O modelo medium tem cerca de 1.5GB, o large tem cerca de 3GB. Esse download acontece uma vez; nas próximas vezes o modelo já está no seu computador.
Comando Completo com Todas as Opções Úteis
whisper "video.mp4" --language pt --model medium --output_format srt --output_dir "/pasta/de/saida" --word_timestamps True
--language pt: força o português, evita que o Whisper tente detectar automaticamente (o que às vezes dá errado com sotaques)--model medium: especifica o modelo--output_format srt: gera o arquivo SRT--output_dir: onde salvar o arquivo (opcional, padrão é a pasta do vídeo)--word_timestamps True: sincronização palavra por palavra, melhora a precisão do timing
Outros Formatos de Saída
Além do SRT, o Whisper pode gerar:
--output_format txt: texto puro da transcrição (sem timestamps). Útil para gerar descrição do vídeo ou post no blog--output_format vtt: formato WebVTT, usado por plataformas como Vimeo e sites--output_format tsv: planilha com timestamps — para quem quer analisar os dados--output_format json: dados completos da transcrição com metadata--output_format all: gera todos os formatos de uma vez
Corrigindo Erros no SRT Antes de Importar
Mesmo com o Whisper, alguns erros vão acontecer. A diferença é que com o Whisper são muito menos do que com o CapCut ou YouTube, então a correção é mais rápida.
Como Abrir e Editar o Arquivo SRT
O arquivo SRT é um arquivo de texto simples. Você pode abrir com:
- Bloco de Notas (Windows)
- TextEdit (Mac) — mas mude para “Formato Simples” antes (Formato > Converter para Formato Simples)
- VSCode (recomendado para quem usa frequentemente — tem syntax highlight para SRT)
- Notepad++ (Windows, gratuito)
O formato do SRT é simples:
1
00:00:00,000 --> 00:00:03,500
Olá pessoal, bem-vindos ao canal.
2
00:00:03,500 --> 00:00:07,200
Hoje eu vou mostrar como fazer isso em 10 minutos.
Cada bloco tem: número da legenda, timestamp de início e fim, e o texto. Para corrigir, você apenas edita o texto.
Correções Rápidas com Find & Replace
Se o Whisper transcreveu um termo específico errado repetidamente (como um nome próprio ou palavra técnica do seu nicho), use Find & Replace no editor de texto para corrigir todas as ocorrências de uma vez.
No VSCode: Ctrl+H (Windows) ou Cmd+H (Mac).
Automatizando Correções com ChatGPT
Se o arquivo SRT tem muitos erros que precisam de contexto para corrigir, use o ChatGPT:
Aqui está uma transcrição de um vídeo sobre [tema] em formato SRT. Corrija os erros de transcrição mantendo o formato SRT exato (números, timestamps e formatação).
Contexto: o vídeo fala sobre [breve descrição]. Termos específicos que devem aparecer: [liste palavras técnicas, nomes próprios, etc.].
[Cole o conteúdo do SRT]
Retorne apenas o SRT corrigido, sem comentários adicionais.
Isso é especialmente útil para SRTs longos com erros espalhados. O ChatGPT consegue entender o contexto e corrigir palavras que foram transcritas fonéticamente de forma diferente.
Importando o SRT no CapCut
Com o arquivo SRT corrigido, agora é hora de importar no CapCut e estilizar as legendas.
Passo 1: Importe o Vídeo no CapCut
Abra o CapCut Desktop (capcut.com/downloads). Crie um novo projeto. Importe o vídeo principal pela opção “Importar” na aba de mídia.
Passo 2: Importe o SRT
- Com o vídeo na timeline, clique em “Texto” no menu superior
- Clique em “Importar legenda”
- Selecione o arquivo .srt gerado pelo Whisper
- O CapCut vai criar automaticamente os blocos de texto na timeline, sincronizados com os timestamps do SRT
Se o CapCut não encontrar a opção “Importar legenda” diretamente, ela também pode estar em: Texto > Auto-legenda > mais opções > Importar arquivo de legendas.
Passo 3: Ajustando o Estilo das Legendas
Com os blocos de legenda na timeline, clique em qualquer bloco e depois em “Selecionar tudo” (ou Ctrl+A com os blocos selecionados) para editar todos ao mesmo tempo.
Fonte: Evite fontes serifadas. Para legendas, as melhores opções são:
- Montserrat Bold (leitura fácil, moderno)
- Roboto Bold (clean, funciona em qualquer nicho)
- Anton (impactante, bom para conteúdo dinâmico)
- Oswald Bold (clássico para legendas)
Tamanho: Mínimo de 50-60pt para vídeos 1080p. Se a legenda vai ocupar mais de 2 linhas, reduz o tamanho da fonte ou ajusta o texto para caber em 2 linhas por bloco.
Cor: As combinações que melhor funcionam:
- Texto branco com contorno preto (funciona em qualquer fundo)
- Texto amarelo com contorno preto (mais impactante, comum em conteúdo de entretenimento)
- Texto branco com caixa preta semi-transparente por baixo (máxima legibilidade)
No CapCut, para adicionar contorno: selecione os textos, vá em “Estilo” > ative “Contorno” e ajuste a espessura (3-5px é suficiente).
Posição: Para conteúdo vertical (Shorts/Reels): posicione as legendas no meio da tela vertical, levemente abaixo do centro. Para conteúdo horizontal (YouTube): posicione na parte inferior da tela, mas acima do limite seguro (deixe uma margem de 80-100px do fundo).
Animação: O CapCut tem animações de entrada para as legendas. As que funcionam melhor sem distrair:
- Fade in (aparecimento suave)
- Pop (leve efeito de escala, bom para conteúdo dinâmico)
- Sem animação (mais profissional e claro para conteúdo educacional)
Evite animações muito elaboradas — elas distorcem a leitura.
Passo 4: Revisão dos Blocos de Legenda
Antes de exportar, veja o vídeo do início ao fim com as legendas ativadas. Verifique:
- Timing: a legenda aparece e some no momento correto? Se não, clique no bloco na timeline e arraste as bordas para ajustar
- Quebra de linha: nunca deixe palavras sozinhas numa linha. Se um bloco tem “Isso é muito” na linha 1 e “importante” sozinho na linha 2, edite o texto para redistribuir
- Termos errados que passaram pela revisão do SRT
Configuração para Shorts e Reels
Para conteúdo vertical, o processo tem algumas diferenças importantes.
Configuração do Projeto
No CapCut, quando criar o projeto para um Short, altere a proporção para 9:16 (vertical). Se você está recortando um vídeo horizontal para vertical:
- Importe o vídeo horizontal
- Na timeline, clique no vídeo > “Reformatar para 9:16”
- Ajuste o enquadramento (foque no rosto ou na área de ação principal)
Legendas para Shorts
Para Shorts, as legendas ficam no centro vertical da tela (não no rodapé como no YouTube). Isso porque no formato vertical o espectador segura o celular com as duas mãos e o polegar cobre o rodapé — a área central tem mais atenção visual.
Use fontes maiores (70-80pt) e blocos de legenda com no máximo 1-2 palavras por vez para efeito de “karaokê” — uma palavra aparecer por vez cria ritmo e mantém o espectador assistindo.
Para criar esse efeito no CapCut após importar o SRT:
- Selecione um bloco de legenda que tem 5-6 palavras
- Clique em “Dividir” na barra de ferramentas para quebrar em blocos menores
- Ajuste o timing de cada sub-bloco para sincronizar com a fala
Isso é trabalhoso manualmente. Alternativa: use a função “Auto-legenda Karaokê” do CapCut se disponível na sua versão.
Exportando o Vídeo com Legendas
Quando o estilo e o timing estiverem certos, exporte o vídeo.
Configurações de Exportação no CapCut
Clique em “Exportar” no canto superior direito. Configure:
- Resolução: 1080p (padrão para YouTube e Instagram). Para ultra-qualidade, selecione 4K se seu computador suportar
- Taxa de quadros: 30fps é o padrão do YouTube. Se você gravar em 60fps, pode manter para vídeos de jogos ou conteúdo com muito movimento
- Codec: H.264 é o mais compatível. H.265 tem melhor qualidade com arquivo menor, mas pode ter problemas de compatibilidade em alguns dispositivos mais antigos
- Bitrate: Recomendado (CapCut define automaticamente) ou Personalizado se você sabe o que está fazendo
Aguarde a exportação. Um vídeo de 10 minutos em 1080p leva de 2 a 8 minutos para exportar dependendo do computador.
Exportando o SRT Separadamente
Se você quiser o SRT para usar no YouTube (as legendas ficam separadas do vídeo, permitindo que o YouTube use para indexação e busca), exporte o SRT pelo CapCut:
- Após importar o SRT e fazer ajustes, vá em “Texto” > “Exportar legenda”
- Selecione formato SRT
- Salve o arquivo
No YouTube Studio, ao fazer upload do vídeo, vá em “Legendas” > “Fazer upload” > “Arquivo SRT”. Isso vai gerar legendas indexáveis pelo Google, o que pode melhorar o SEO do vídeo.
Workflow Completo: Do Áudio ao Vídeo Legendado
Aqui está o fluxo otimizado para quem quer o melhor resultado no menor tempo:
- Grave e edite o vídeo normalmente no CapCut (corte erros, adicione música de fundo, etc.)
- Exporte o vídeo editado SEM legendas em 1080p
- Rode o Whisper no vídeo exportado:
whisper "video_editado.mp4" --language pt --model medium --output_format srt - Abra o SRT e faça correções (leva 5-15 minutos para um vídeo de 10 minutos com o Whisper — muito menos que com outros métodos)
- Volte ao CapCut, importe o vídeo editado novamente e importe o SRT corrigido
- Aplique o estilo de legenda, revise o timing
- Exporte o vídeo final com legendas
Esse fluxo garante que as legendas estão sincronizadas com o vídeo final editado, não com a gravação bruta (que tem partes cortadas e que tornariam os timestamps desalinhados).
Solução de Problemas Comuns
Problema: Whisper demora muito para processar
O Whisper usa GPU para processar se disponível, CPU se não tiver. Em máquinas sem placa de vídeo dedicada, vídeos longos podem demorar bastante.
Solução: use o modelo “small” em vez do “medium” para velocidade, ou processe apenas o áudio em vez do vídeo completo (menor arquivo = processamento mais rápido):
# Extraia o áudio primeiro com ffmpeg
ffmpeg -i "video.mp4" -vn -acodec mp3 "audio.mp3"
# Transcreva apenas o áudio
whisper "audio.mp3" --language pt --model medium --output_format srt
Problema: Erro “CUDA not available” no Mac com Apple Silicon
O Whisper no Mac M1/M2/M3 usa Metal Performance Shaders (MPS) em vez de CUDA. Na maioria dos casos funciona automaticamente. Se der erro, force o uso de CPU:
whisper "video.mp4" --language pt --model medium --output_format srt --device cpu
Problema: SRT importado no CapCut com timing desalinhado
Isso acontece quando o SRT foi gerado para a gravação bruta mas você está importando no vídeo editado com cortes. Solução: sempre rode o Whisper no vídeo final editado, não na gravação bruta.
Problema: O Whisper não está reconhecendo o comando
Tente:
python -m whisper "video.mp4" --language pt --output_format srt
Se isso funcionar, o whisper está instalado mas o diretório de scripts não está no PATH do sistema.
Whisper via API: A Alternativa ao Whisper Local
Se você não quer instalar Python e preferir uma solução online, a OpenAI oferece o Whisper como API. Você paga por uso (US$ 0,006 por minuto de áudio) e não precisa de Python nem de instalação local.
Como Usar a API do Whisper
A forma mais acessível sem programação é usar ferramentas que integram a API do Whisper:
- Whisper.ai (whisper.openai.com): interface web onde você faz upload do áudio e recebe a transcrição. Plano gratuito com limite de uso
- Descript: transceve usando Whisper nos bastidores. Plano gratuito inclui 1 hora de transcrição por mês
- Riverside.fm: além de gravar podcasts e entrevistas, tem transcrição automática com qualidade Whisper
- Otter.ai: especializado em transcrição, com integração para Zoom e Google Meet além de arquivos de áudio
Quando a API Faz Mais Sentido
Use a API ou ferramentas online quando:
- Você está no Windows e a configuração do Python está dando muito trabalho
- Seu computador tem pouco espaço em disco (o modelo large do Whisper ocupa 3GB)
- Você precisa transcrever ocasionalmente, não toda semana
- Está trabalhando num computador diferente do habitual (viagem, home office)
Legendas para Diferentes Plataformas
O mesmo vídeo vai para YouTube, Instagram, TikTok e LinkedIn, e cada plataforma tem especificações diferentes para legenda. Aqui está o guia rápido:
YouTube (Horizontal, 16:9)
- Posição: parte inferior, 80px de margem do fundo
- Fonte: Roboto ou similar, 50-60pt em 1080p
- Cor: branco com contorno preto
- Máximo por bloco: 2 linhas, 42 caracteres por linha
- O arquivo SRT pode ser enviado separadamente ao YouTube para indexação
Instagram Reels / TikTok (Vertical, 9:16)
- Posição: centro da tela, levemente abaixo do meio
- Fonte: maior que no YouTube — 70-80pt para compensar visualização em telas pequenas
- Estilo: legenda no estilo karaokê (uma ou poucas palavras por vez) converte melhor em formato vertical
- Considere usar caixa de fundo colorida atrás da legenda para maior destaque
LinkedIn (Horizontal ou Quadrado)
- Posição: parte inferior
- Tom mais formal na correção dos erros de transcrição
- O LinkedIn tem geração automática de legendas, mas a qualidade é inferior ao Whisper. Prefira subir o SRT manualmente
Criando um Script de Automação para o Whisper
Se você processa vídeos regularmente, pode criar um script simples em Python que automatiza o processo completo — transcrição, exportação do SRT e renomeação do arquivo. Isso é opcional e para quem quer ir além do básico.
# whisper_auto.py
# Uso: python whisper_auto.py "video.mp4"
import whisper
import sys
import os
def transcrever(arquivo_video):
print(f"Carregando modelo Whisper...")
modelo = whisper.load_model("medium")
print(f"Transcrevendo: {arquivo_video}")
resultado = modelo.transcribe(arquivo_video, language="pt")
# Define o nome do arquivo SRT
nome_base = os.path.splitext(arquivo_video)[0]
arquivo_srt = f"{nome_base}.srt"
# Gera o SRT manualmente
with open(arquivo_srt, "w", encoding="utf-8") as f:
for i, segmento in enumerate(resultado["segments"], start=1):
inicio = formatar_tempo(segmento["start"])
fim = formatar_tempo(segmento["end"])
texto = segmento["text"].strip()
f.write(f"{i}\n{inicio} --> {fim}\n{texto}\n\n")
print(f"SRT salvo em: {arquivo_srt}")
return arquivo_srt
def formatar_tempo(segundos):
h = int(segundos // 3600)
m = int((segundos % 3600) // 60)
s = int(segundos % 60)
ms = int((segundos % 1) * 1000)
return f"{h:02d}:{m:02d}:{s:02d},{ms:03d}"
if __name__ == "__main__":
if len(sys.argv) < 2:
print("Uso: python whisper_auto.py 'video.mp4'")
else:
transcrever(sys.argv[1])
Para usar: salve este arquivo como "whisper_auto.py" em qualquer pasta, abra o terminal na mesma pasta e execute:
python whisper_auto.py "caminho/para/seu/video.mp4"
O script vai transcrever e salvar o SRT automaticamente sem precisar de parâmetros adicionais toda vez.
Qualidade de Áudio: A Base de Tudo
Nenhuma ferramenta de transcrição — nem o Whisper, nem qualquer outro — consegue compensar áudio de má qualidade. Antes de investir tempo na configuração de legenda automática, vale garantir que o áudio está em um nível mínimo.
O Padrão Mínimo de Qualidade para Transcrição Automática Funcionar Bem
- Microfone a menos de 30cm da boca: microfone de lapela ou headset são ideais. Microfone de câmera a 1 metro de distância vai gerar muito mais erros de transcrição
- Sem eco: grave em ambiente com absorção de som (quarto com cortinas e tapete, dentro de um guarda-roupa cheio de roupas, ou com espumas acústicas)
- Sem ruído de fundo contínuo: ventilador, ar-condicionado e trânsito externo aumentam significativamente os erros do Whisper
- Fale devagar e claramente: especialmente em termos técnicos ou nomes específicos
Limpando Áudio Antes de Transcrever
Se o áudio tem ruído de fundo mas você já gravou e não pode regravar, o Adobe Podcast Enhance (podcast.adobe.com) limpa o áudio automaticamente. É gratuito, online, e melhora dramaticamente a qualidade de gravações com ruído de fundo. Faça o upload do áudio, baixe o arquivo limpo e então transcreva com o Whisper.
Benchmark: Comparação Real de Precisão
Para contextualizar por que o Whisper vale o esforço de instalação, aqui está uma comparação honesta de precisão para português brasileiro:
- Whisper medium: ~92-95% de precisão para português claro, ~85-90% para sotaques regionais fortes
- CapCut Auto-legenda: ~85-90% para português claro, ~75-80% para sotaques
- YouTube Auto-legendas: ~80-85% para português claro, ~70-75% para sotaques
- Whisper large: ~95-97% de precisão para quase todos os sotaques brasileiros
A diferença de 5-10 pontos percentuais pode parecer pequena, mas em um vídeo de 10 minutos com 1500 palavras, significa 75-150 erros a menos para corrigir manualmente. Para quem publica 3 vídeos por semana, isso é 1-2 horas por semana economizadas só na revisão de legendas.
Assista ao Vídeo
Instalar o Whisper pela primeira vez pode gerar dúvidas, especialmente na parte de configuração do ffmpeg no Windows ou do PATH. Se você encontrou algum erro durante a instalação, pesquise no YouTube por "instalar Whisper Python Windows" ou "instalar Whisper Mac" — existem vídeos com o processo completo em tela. Ver o terminal sendo usado em tempo real ajuda a entender cada comando e o que esperar de resposta. E se tiver algum erro específico que não conseguiu resolver, deixa nos comentários com a mensagem de erro exata — a comunidade do Faz com IA responde.