clonar voz com ElevenLabs

O que é o ElevenLabs e como clonar voz com ElevenLabs muda a produção de conteúdo

Se você quer clonar voz com ElevenLabs, chegou ao lugar certo: neste guia completo você vai aprender do zero como criar um clone da sua voz, gerar narrações ilimitadas e dublar vídeos inteiros para outros idiomas. Além disso, o ElevenLabs é a ferramenta de síntese de voz mais avançada do mercado hoje, e ela permite que você gere narrações sem abrir o microfone. Portanto, se você ainda narra seus vídeos gravando áudio manualmente, está perdendo tempo e dinheiro.

Mais do que isso: ao clonar voz com ElevenLabs, você pode dublar um vídeo gravado em português para inglês, espanhol, alemão ou mais de 20 idiomas, mantendo o timbre da sua voz original. Ou seja, um único vídeo pode virar conteúdo para o mundo inteiro. Por exemplo, criadores brasileiros já estão escalando canais internacionais usando exatamente esse processo.

Neste tutorial você vai aprender do zero: criar conta, subir amostras de voz, gerar o clone, usar a interface para criar narrações, exportar o áudio e sincronizar no CapCut e no Premiere. No final, tem um passo a passo completo de como dublar um vídeo do português para o inglês. Em seguida, exploramos também como usar a API para automações avançadas.

Sem teoria. Mão na massa. Veja também como usar o CapCut IA para complementar sua produção e como montar um pipeline completo de vídeos com IA.

Criando sua conta para clonar voz com ElevenLabs

Acesse elevenlabs.io e clique em Sign Up. Você pode criar conta com email ou entrar direto com Google. O processo leva menos de dois minutos. Assim que criar sua conta, você já tem acesso às funcionalidades de clonagem de voz.

O plano gratuito dá 10.000 caracteres por mês: suficiente para testar, mas insuficiente para uso real. Para criadores de conteúdo, o plano Starter (US$ 5/mês) oferece 30.000 caracteres. O plano Creator (US$ 22/mês) dá 100.000 caracteres e é onde a maioria dos criadores sérios fica. Portanto, avalie seu volume de produção antes de escolher o plano.

Depois de criar a conta, você cai direto no painel principal. Do lado esquerdo você vê o menu com as opções principais: Speech Synthesis, Voice Lab, Projects e Dubbing. Cada uma dessas seções vai aparecer neste tutorial sobre como clonar voz com ElevenLabs.

Como clonar voz com ElevenLabs: passo a passo completo

Quantas amostras você precisa e qual a qualidade mínima para clonar voz com ElevenLabs

Para criar um clone de voz funcional no ElevenLabs, você precisa de no mínimo 1 minuto de áudio limpo. O ideal é entre 3 e 5 minutos. Além disso, acima de 10 minutos não melhora muito o resultado: o algoritmo já tem material suficiente para clonar a voz com ElevenLabs com fidelidade.

A qualidade do áudio é o fator mais importante. Siga estas regras:

Microfone: use o melhor que você tiver. Um SM7B, um Blue Yeti ou até um microfone de lapela de qualidade funcionam bem. Evite gravar pelo celular em ambiente aberto.
Ambiente: grave em um quarto com pouco reverb. Closet cheio de roupa funciona muito bem como cabine improvisada.
Ruído de fundo: zero. Sem ventilador, ar-condicionado, trânsito. Qualquer ruído persistente vai entrar no clone.
Formato: MP3 ou WAV, 44.1 kHz, 16 bits no mínimo. Maior qualidade = melhor clone.
Conteúdo: fale de forma natural, como se estivesse narrando um vídeo. Não leia listas de palavras: o ElevenLabs precisa capturar seu ritmo, entonação e pausas naturais.

Grave textos variados: um parágrafo animado, um trecho mais sério, algo com pergunta, algo com exclamação. Quanto mais variação emocional, melhor o clone vai performar em diferentes contextos. De fato, a variedade de entonação é o que separa um clone mediano de um clone realmente convincente.

Fazendo o upload e criando o Voice Clone

No painel do ElevenLabs, vá em Voice Lab no menu lateral. Clique em Add a new voice. Você vai ver três opções:

Instant Voice Cloning: rápido, funciona com poucos minutos de áudio, disponível no plano Starter.
Professional Voice Cloning: mais fiel, precisa de 30 minutos de áudio, disponível a partir do plano Creator.
Voice Design: cria uma voz artificial sem clone: útil para personagens.

Para começar, escolha Instant Voice Cloning. Clique nessa opção e você vai ver uma tela com campos para preencher. Em seguida, siga os passos abaixo.

Passo 1: dê um nome para sua voz. Use algo descritivo como “Raphael_Narração” ou “VozPrincipal_PT”.

Passo 2: clique em Upload audio files e selecione seus arquivos de áudio. Você pode subir vários arquivos de uma vez: o ElevenLabs vai juntá-los automaticamente para clonar sua voz.

Passo 3: marque a caixa confirmando que você tem permissão para usar essa voz. Isso é obrigatório e o ElevenLabs leva a sério.

Passo 4: clique em Add Voice. O processamento leva de 30 segundos a 2 minutos dependendo do tamanho dos arquivos.

Quando terminar, sua voz vai aparecer na biblioteca de vozes, pronta para uso. Assim, você já pode gerar narrações ilimitadas com seu clone de voz com ElevenLabs.

Testando o clone antes de usar

Vá em Speech Synthesis no menu lateral. No campo Voice, selecione a voz que você acabou de criar. No campo de texto, escreva um parágrafo curto: de preferência algo que você nunca gravou, para ver como o clone lida com textos novos.

Clique em Generate e ouça. Se o clone soar metálico ou artificial demais, provavelmente seu áudio de amostra tinha muito ruído ou reverb. No entanto, regrave com melhor qualidade e substitua os arquivos: o resultado melhora significativamente.

Ajuste o parâmetro Stability e Similarity Enhancement:

Stability alto (acima de 0.7): voz mais consistente, mas pode soar um pouco robótica. Bom para narração técnica.
Stability baixo (abaixo de 0.4): mais variação expressiva, pode soar mais natural, mas menos previsível.
Similarity Enhancement alto: mantém mais fidelidade à sua voz original ao clonar voz com ElevenLabs.

Para narração de YouTube, comece com Stability em 0.5 e Similarity em 0.75. Ajuste a partir daí conforme seu gosto.

Gerando narrações com a interface web

Como escrever o script para melhores resultados

O ElevenLabs não lê pontuação de forma mágica: você precisa escrever o script de um jeito que guie a entonação. Por isso, use estas técnicas:

Vírgulas e pontos criam pausas naturais. Use e abuse.
Reticências (…) criam pausas mais longas e dramáticas.
Ponto de exclamação aumenta a energia da frase.
Itálico (no campo de texto) não funciona: o modelo não interpreta formatação.
Para ênfase, escreva a palavra em MAIÚSCULAS. O modelo vai dar mais peso a ela.

Exemplo de script bem formatado para narração:

“Você sabe quanto tempo leva para editar um vídeo de 10 minutos? A maioria dos criadores gasta entre 4 e 8 horas. OITO horas. Para um único vídeo. E se eu te dissesse que dá para fazer isso em menos de 40 minutos… usando IA?”

Esse script vai soar muito mais dinâmico do que uma versão sem pontuação intencional. Dessa forma, o clone de voz com ElevenLabs entrega narrações convincentes.

Usando o recurso de Projetos para textos longos

Para textos acima de 2.500 caracteres, use a seção Projects no menu lateral. Clique em Create new project, cole seu texto completo e selecione a voz. O ElevenLabs divide o texto em parágrafos e gera cada um separadamente, o que melhora a consistência e permite que você regere trechos específicos sem ter que refazer tudo.

No modo Projects, você pode clicar em qualquer parágrafo e regenerar só aquele trecho. Isso é muito útil quando um parágrafo saiu com a entonação errada: contudo, você não precisa refazer a narração inteira.

Usando a API do ElevenLabs para automatizar produções com clone de voz

Se você produz conteúdo em volume, a API é o caminho certo para escalar o uso do clone de voz com ElevenLabs. Com ela, você manda um texto por código e recebe o áudio de volta: sem abrir o navegador.

Gerando sua API Key

No painel do ElevenLabs, clique no seu perfil no canto superior direito e vá em Profile + API Key. Copie a chave que aparece. Guarde em lugar seguro: quem tiver essa chave pode usar seus créditos.

Chamada básica via Python

Instale a biblioteca oficial:

pip install elevenlabs

Código básico para gerar áudio:

from elevenlabs import generate, save, set_api_key

set_api_key("SUA_API_KEY_AQUI")

audio = generate(
    text="Olá, este é um teste de narração com inteligência artificial.",
    voice="Raphael_Narração",  # nome da sua voz clonada
    model="eleven_multilingual_v2"
)

save(audio, "narração.mp3")

O modelo eleven_multilingual_v2 é o mais atual e suporta português de forma excelente. Use sempre esse para clonar voz com ElevenLabs em projetos em português.

Automatizando narração de roteiros

Se você tem um arquivo de texto com o roteiro do vídeo, pode gerar o áudio automaticamente assim:

with open("roteiro.txt", "r", encoding="utf-8") as f:
    texto = f.read()

audio = generate(
    text=texto,
    voice="Raphael_Narração",
    model="eleven_multilingual_v2"
)

save(audio, "narração_final.mp3")

Com isso, você escreve o roteiro no seu editor de texto favorito, roda o script e em segundos tem o áudio pronto para sincronizar no vídeo. Assim, o processo de clonar voz com ElevenLabs fica totalmente automatizado.

Exportando o áudio e importando no CapCut

Exportando do ElevenLabs

Na interface web, depois de gerar o áudio, clique no ícone de download ao lado do player. O arquivo vem em MP3 por padrão. Se você precisa de WAV para edição de maior qualidade, use a API com o parâmetro output_format="pcm_44100" e converta depois com o Adobe Audition ou qualquer editor de áudio.

Sincronizando no CapCut

Abra seu projeto no CapCut. Importe o vídeo que já está editado (imagens, cortes feitos). Agora:

Clique em Áudio na barra inferior.
Clique em Sons e depois em Importar do dispositivo.
Selecione o arquivo MP3 exportado do ElevenLabs.
O áudio vai aparecer na timeline na faixa de áudio.
Arraste para alinhar com o início do vídeo.
Use os pontos de edição para ajustar caso o áudio esteja descompasso com alguma cena específica.

Se o vídeo tem cortes rápidos e a narração precisa sincronizar com momentos visuais específicos, divida o áudio no CapCut clicando nele e usando a opção Dividir no ponto exato que você quer. Assim você pode mover cada trecho independentemente.

Sincronizando no Adobe Premiere Pro

No Premiere, o processo é ainda mais preciso:

Importe o arquivo de áudio pelo painel Project (arraste ou use File > Import).
Arraste o áudio para a timeline na faixa A1 ou A2.
Para sincronizar automaticamente com o vídeo original (caso você tenha gravado um áudio de referência), selecione ambos os clipes, clique com o botão direito e escolha Synchronize.
Se não tiver áudio de referência, sincronize manualmente usando marcadores: pressione M nos pontos de corte e alinhe a narração com esses pontos.

No Premiere, você também pode usar o painel Essential Sound para ajustar EQ e compressão da narração gerada: o que melhora bastante a qualidade percebida, especialmente se você misturar com trilha sonora. Portanto, não pule essa etapa de pós-produção de áudio.

Como dublar um vídeo do português para o inglês usando o clone de voz com ElevenLabs

Essa é a função mais poderosa do ElevenLabs para criadores que querem alcançar audiência internacional. O recurso se chama AI Dubbing e está disponível a partir do plano Creator. De fato, clonar voz com ElevenLabs para dublagem é o caso de uso que mais impressiona quem experimenta pela primeira vez.

Passo 1: Acesse a seção Dubbing

No menu lateral do ElevenLabs, clique em Dubbing. Você vai ver a opção de criar um novo projeto de dublagem.

Passo 2: Faça o upload do vídeo

Clique em Create a dubbing project. Na tela que abre:

Dê um nome ao projeto (ex: “Tutorial_PT_para_EN”).
Faça o upload do vídeo. Suporta MP4, MOV, AVI. Tamanho máximo: 500 MB no plano Creator.
Alternativamente, cole a URL de um vídeo do YouTube: o ElevenLabs baixa automaticamente.

Passo 3: Configure idioma de origem e destino

Source language: Portuguese.
Target language: English.
Marque a opção Use speaker diarization se o vídeo tiver mais de uma pessoa falando: o sistema vai identificar cada voz separadamente.

Passo 4: Aguarde o processamento

O ElevenLabs vai: transcrever o áudio original, traduzir para inglês, clonar a voz do falante e gerar o áudio dublado. Para um vídeo de 10 minutos, esse processo leva entre 5 e 15 minutos dependendo da fila do servidor.

Passo 5: Revise e ajuste

Quando terminar, você cai em uma tela de edição onde pode ver o script original lado a lado com a tradução em inglês. Você pode editar qualquer frase da tradução se o sistema errou alguma expressão. Depois de editar, clique em Regenerate para refazer só aquele trecho.

Preste atenção especial em:

Números e datas (às vezes são mal interpretados)
Nomes próprios brasileiros
Gírias e expressões idiomáticas
Termos técnicos do seu nicho

Passo 6: Exporte o vídeo dublado

Clique em Export. Você pode baixar:

O vídeo completo com a trilha dublada já misturada
Só o arquivo de áudio da dublagem
O arquivo de legendas SRT gerado automaticamente

Para YouTube, baixe o vídeo completo. Para controle maior sobre a edição, baixe o áudio separado e importe no seu editor. Dessa forma, você mantém controle total sobre o resultado final.

Prompts de exemplo para narração com clone de voz com ElevenLabs

O ElevenLabs não usa “prompts” da mesma forma que o ChatGPT: o texto que você digita é diretamente o que vai ser narrado. No entanto, existem técnicas para guiar a performance da voz. Veja exemplos reais:

Para narração de tutorial (tom didático e animado)

“Hoje você vai aprender algo que vai mudar completamente a forma como você produz conteúdo. Não é exagero. Nos próximos 10 minutos, eu vou te mostrar três ferramentas que os maiores criadores do mundo já estão usando: e que a maioria dos criadores brasileiros ainda não conhece.”

Para narração de notícia ou análise (tom sério e informativo)

“O mercado de inteligência artificial movimentou 184 bilhões de dólares em 2024. Para colocar em perspectiva… isso é mais do que o PIB de países inteiros. E esse número deve triplicar até 2027. O que isso significa para você como criador de conteúdo? Vamos destrinchar.”

Para narração de review de produto (tom conversacional)

“Okay, eu testei essa ferramenta por dois meses antes de gravar esse vídeo. Dois meses. Porque eu queria ter certeza absoluta antes de recomendar para vocês. E o resultado me surpreendeu: tanto para o bem quanto para o mal. Vou ser honesto sobre os dois lados.”

Para narração de Shorts (alta energia, ritmo rápido)

“Você NÃO vai acreditar no que essa IA consegue fazer. Assiste até o final: em 60 segundos você vai querer usar isso no seu próximo vídeo.”

Dicas avançadas para qualidade profissional ao clonar voz com ElevenLabs

Use o modelo certo para cada idioma

O ElevenLabs tem vários modelos disponíveis. Para português, use sempre o eleven_multilingual_v2. Evite o eleven_english_v1: ele foi treinado só em inglês e vai soar estranho com texto em português, mesmo que você tenha clonado sua voz com ElevenLabs.

Divida textos longos em blocos menores

Textos acima de 800 caracteres em uma única requisição às vezes perdem consistência de entonação no meio. Por isso, divida em parágrafos de 400 a 600 caracteres e concatene os áudios depois no seu editor. O resultado final é mais uniforme.

Adicione marcadores de pausa manualmente

Para pausas precisas, você pode adicionar <break time="1.5s" /> no texto usando o modo SSML. Ative o SSML no Speech Synthesis clicando no ícone de código acima do campo de texto. Por exemplo:

“Veja bem… <break time=”2s” /> isso muda tudo.”

A pausa de 2 segundos vai aparecer exatamente onde você colocou. Assim, você tem controle total sobre o ritmo da narração gerada pelo clone de voz com ElevenLabs.

Crie variações e escolha a melhor

Para trechos importantes como a intro do vídeo, gere 3 ou 4 versões do mesmo texto (clique em Generate várias vezes: o resultado muda um pouco a cada vez) e escolha aquela com a melhor entonação. Essa variação natural é uma das vantagens do ElevenLabs sobre outros geradores de voz.

Normalize o áudio antes de exportar

O áudio gerado pelo ElevenLabs costuma ter volume consistente, mas às vezes varia entre gerações diferentes. Antes de colocar na timeline, normalize todos os clipes para -14 LUFS (padrão do YouTube) usando o Audacity (gratuito) ou o Adobe Audition. Dessa forma, o volume fica consistente em todos os trechos.

Casos de uso reais para criadores de conteúdo

Canal de YouTube com conteúdo em múltiplos idiomas

Grave o vídeo uma vez em português. Use o ElevenLabs Dubbing para criar versões em inglês, espanhol e francês. Em seguida, suba cada versão como um vídeo separado no YouTube com legendas geradas automaticamente. Um único dia de gravação vira quatro vídeos em quatro idiomas: isso é o poder de clonar voz com ElevenLabs.

Substituição de áudio de baixa qualidade

Gravou um vídeo ótimo mas o áudio ficou horrível por conta do ambiente? Transcreva o que foi dito (use o Whisper da OpenAI ou o próprio Descript), gere o áudio com seu clone de voz no ElevenLabs e sincronize no Premiere. Vídeo salvo.

Narração de vídeos sem aparecer

Se você cria conteúdo de imagens, gráficos ou screenshare e não quer (ou não pode) gravar narração em tempo real, escreva o roteiro, gere com o clone e monte o vídeo. Ideal para tutoriais de software, análises de mercado financeiro ou conteúdo educacional.

Produção em escala com automação

Com a API, você pode automatizar toda a pipeline: ChatGPT escreve o roteiro → ElevenLabs gera o áudio → Remotion ou outro sistema monta o vídeo automaticamente. Criadores de conteúdo programático estão fazendo isso hoje para publicar dezenas de vídeos por semana. Por outro lado, mesmo sem automação total, clonar voz com ElevenLabs já economiza horas por semana.

Limitações que você precisa saber

O ElevenLabs é poderoso, mas tem pontos cegos. Saiba o que esperar ao clonar voz com ElevenLabs:

Erros em nomes próprios brasileiros: nomes como “Iracema”, “Açaí” ou cidades como “Florianópolis” às vezes são pronunciados de forma estranha. Escreva foneticamente nesses casos: “Floriânopolis”.
Números grandes: “R$ 1.234.567,89” pode ser lido de forma inconsistente. Escreva por extenso: “um milhão, duzentos e trinta e quatro mil, quinhentos e sessenta e sete reais”.
Siglas: “IA” pode ser lida como “ia” (verbo) em vez de “I-A”. Escreva “I.A.” com pontos para forçar a leitura letra a letra.
Emoções extremas: o clone não chora, não ri de verdade, não sussurra bem. Para essas situações, grave você mesmo.
Uso comercial: se você vai usar a voz em anúncios pagos, revise os termos de serviço. Existe uma categoria específica chamada “Commercial Use” que requer plano adequado.

Comparando ElevenLabs com alternativas

Vale saber o que existe no mercado para entender por que o ElevenLabs se destaca para quem quer clonar voz:

Murf.ai: bom para vozes pré-feitas, clone de voz mais limitado, interface mais simples.
Resemble.ai: focado em desenvolvedores, clone de alta qualidade, menos amigável para não-técnicos.
Play.ht: boa alternativa, preço similar, qualidade um pouco inferior em português.
Microsoft Azure TTS: extremamente barato para volume alto, mas configuração técnica necessária.

Para criadores de conteúdo brasileiros, o ElevenLabs é a melhor opção no equilíbrio de qualidade, facilidade de uso e suporte ao português. Em resumo, clonar voz com ElevenLabs é o caminho mais rápido para produção de narração profissional.

Checklist: do zero ao vídeo dublado em um dia com ElevenLabs

Criar conta no ElevenLabs
Gravar 3 minutos de áudio limpo (microfone, sem ruído)
Subir amostras e criar o Instant Voice Clone
Testar o clone com um parágrafo curto
Escrever o roteiro do vídeo em arquivo de texto
Gerar a narração via interface ou API
Exportar o áudio MP3
Importar no CapCut ou Premiere e sincronizar
Para dublagem: usar a seção Dubbing, fazer upload do vídeo PT, selecionar EN como destino
Revisar tradução, exportar vídeo dublado

Assista ao vídeo

Ler sobre uma ferramenta é o primeiro passo: mas ver na prática faz toda a diferença. Busque por tutoriais em vídeo sobre o ElevenLabs no YouTube: existem criadores que mostram o processo completo de clonagem de voz, dublagem e integração com outros softwares em tempo real. Assistir a alguém fazendo o fluxo completo vai consolidar tudo o que você leu aqui e pode te dar ideias de usos que você ainda não tinha pensado. Pesquise por “ElevenLabs tutorial português” ou “clonar voz IA” e filtre por vídeos recentes: a ferramenta atualiza com frequência e tutoriais de 2024 ou 2025 vão mostrar as funcionalidades mais atuais.

AdSense — In-Article · 728×90