VocalDock

Texto para voz com IA usando sua própria voz

Envie uma amostra curta de voz autorizada, salve como uma voz reutilizável e gere fala natural em 9 idiomas. Pague apenas pelo uso, sem assinatura.

O que esta ferramenta de texto para voz com IA faz?

Envie uma amostra curta de voz autorizada e transforme texto em fala natural com essa voz. O VocalDock usa Fun-CosyVoice 3.0 para clonagem de voz zero-shot, então você cria uma voz reutilizável sem um processo longo de treinamento.

Clonagem de voz zero-shot, sem tempo de treinamento

Envie de 5 a 30 segundos de fala limpa e sua voz fica pronta para uso imediato. Não precisa gravar 10 minutos, nem esperar horas por um modelo: a voz clonada fica disponível assim que você salva.

9 idiomas e 18 dialetos chineses

Gere fala em inglês, chinês, japonês, coreano, alemão, espanhol, francês, italiano e russo. Também há 18 dialetos regionais chineses, incluindo cantonês, sichuanês e xangainês. Uma única voz clonada funciona em todos eles.

Use sua voz, a voz de um familiar ou de um amigo

Ao contrário de leitores que limitam você a uma biblioteca fixa, o VocalDock permite usar uma amostra de voz autorizada. Leia artigos com sua própria voz ou use a voz de um familiar quando houver permissão clara dessa pessoa.

Pague por caractere, sem assinatura

15 créditos a cada 1000 caracteres, com mínimo de 5 créditos por tarefa para cobrir a inicialização da GPU. Não há mensalidade; créditos iniciais gratuitos deixam você testar o fluxo antes de comprar mais.

Prosódia e ritmo mais naturais

O CosyVoice 3 foi projetado para soar mais natural do que sistemas antigos de TTS robótico, com pausas, ênfase e ritmo por frase mais convincentes.

Privacidade: apague suas amostras quando quiser

O áudio de referência enviado fica na sua conta. Ao excluir uma voz, removemos a referência em até 24 horas. Nunca usamos vozes de clientes para treinar nossos modelos.

O que você pode fazer com texto para voz?

Fluxos comuns depois que usuários clonam a primeira voz:

Ler artigos com sua própria voz

Cole um artigo da web, post de blog ou texto de PDF e ouça tudo na sua voz. É ótimo para revisar a própria escrita, porque erros ficam mais fáceis de perceber ao ouvir, ou para acompanhar textos longos durante deslocamentos.

Gerar aberturas e encerramentos de podcast

Grave uma boa amostra de voz e gere áudios consistentes de abertura e encerramento para cada episódio sem regravar. Para atualizar, basta editar o texto.

Corrigir uma frase em uma gravação

Gravou um podcast ou uma locução e percebeu uma palavra errada? Não regrave tudo. Clone sua voz a partir do trecho bom, gere a frase corrigida e encaixe no áudio.

Conteúdo multilíngue a partir de uma voz em inglês

O modo cross-lingual permite que sua voz clonada em inglês fale textos em japonês, chinês ou espanhol. É útil para YouTubers que querem criar faixas em vários idiomas sem contratar locutores nativos.

Áudio afetivo ou memorial com a voz de alguém querido

Com autorização clara da pessoa dona da voz, crie áudios de um familiar lendo poemas favoritos, histórias de dormir ou mensagens pessoais. Este fluxo é pensado primeiro em consentimento.

Perguntas frequentes sobre texto para voz

Como isso é diferente do ElevenLabs?

Há três diferenças. (1) O VocalDock foca em uso pré-pago, sem obrigar você a assinar. (2) Suas vozes de TTS ficam junto de outras ferramentas de áudio do VocalDock, como separação vocal, redução de ruído e conversão. (3) O fluxo é baseado em vozes salvas, para você reutilizar uma amostra autorizada sem reenviar o arquivo toda vez.

Qual deve ser a duração do áudio de referência?

Entre 5 e 30 segundos é o ideal. Usamos os primeiros 28 segundos e o limite é 20 MB. Fala clara, sem música de fundo ou ruído, gera clones de voz melhores; uma gravação ruidosa tende a produzir uma voz clonada mais ruidosa.

Posso clonar a voz de uma celebridade ou personagem fictício?

Somente vozes que você tem autorização para usar. Não envie áudio de figuras públicas, dubladores, atores de voz ou personagens protegidos por direitos autorais sem autorização. Nossas diretrizes de conteúdo, assim como leis de direito de imagem e voz em muitas jurisdições, proíbem criar clones de voz de pessoas reais sem consentimento.

Quais idiomas são compatíveis?

São 9 idiomas prontos para uso: inglês, chinês, japonês, coreano, alemão, espanhol, francês, italiano e russo, além de 18 dialetos regionais chineses, incluindo cantonês, sichuanês e xangainês. A mesma voz clonada funciona em todos eles: grave uma vez em inglês e leia um texto em japonês.

Quanto custa?

15 créditos a cada 1000 caracteres, com mínimo de 5 créditos por tarefa. Um artigo curto de cerca de 3000 caracteres custa 45 créditos. Novos usuários recebem créditos iniciais gratuitos para testar.

Quanto tempo leva para gerar?

Normalmente 10 a 30 segundos na primeira solicitação, quando o modelo é carregado na GPU, e depois 5 a 10 segundos nas próximas gerações. Textos mais longos levam mais tempo proporcionalmente, porque o modelo gera uma frase por vez.

Posso usar o resultado comercialmente?

Sim, quando o conteúdo é criado com sua própria voz ou com permissão explícita da pessoa dona da voz. O arquivo de áudio é seu para usar em podcasts, vídeos, anúncios e audiolivros. Não há royalties sobre o áudio gerado.

O que acontece com minhas amostras se eu excluir a voz?

A exclusão aparece imediatamente na interface; o áudio subjacente no R2 é removido em até 24 horas por limpeza em segundo plano. Nunca usamos áudio de referência enviado por clientes para treinar ou melhorar nossos modelos.