Question 1

¿En qué se diferencia de otras herramientas de texto a voz?

Accepted Answer

Tres diferencias. (1) VocalDock te permite generar con créditos antes de comprometerte con un plan. (2) Tus voces TTS conviven con otras herramientas de audio como separación vocal, reducción de ruido y conversión. (3) El flujo usa voces guardadas, así puedes reutilizar una muestra autorizada sin subirla cada vez.

Question 2

¿Cuánto debe durar el audio de referencia?

Accepted Answer

5 a 30 segundos es el punto óptimo. Usamos los primeros 28 segundos, máximo 20 MB. Habla clara sin música o ruido de fondo da las mejores clonaciones — un audio ruidoso produce una voz clonada ruidosa.

Question 3

¿Puedo clonar la voz de una celebridad o personaje ficticio?

Accepted Answer

Solo voces que tengas permiso de usar. No subas audio de figuras públicas, actores de doblaje o personajes con derechos de autor sin autorización. Nuestras directrices (y leyes de derecho de imagen) prohíben clonar voces de personas reales sin consentimiento.

Question 4

¿Qué idiomas soporta?

Accepted Answer

9 idiomas listos para usar (inglés, chino, japonés, coreano, alemán, español, francés, italiano, ruso) más 18 dialectos regionales chinos. La misma voz clonada funciona en todos — graba en inglés, lee texto en japonés.

Question 5

¿Cuánto cuesta?

Accepted Answer

15 créditos por 1000 caracteres, mínimo 5 créditos por tarea. Un artículo corto de unas 3000 letras cuesta 45 créditos. Los nuevos usuarios reciben créditos iniciales para probar.

Question 6

¿Cuánto tarda en generar?

Accepted Answer

Normalmente 10-30 segundos la primera petición (cold start, modelo cargando), luego 5-10 segundos para las siguientes (warm container). Textos más largos tardan proporcionalmente más, el modelo genera frase a frase.

Question 7

¿Puedo usar el audio comercialmente?

Accepted Answer

Sí, para contenido creado con tu propia voz o con permiso explícito del dueño. El archivo de audio es tuyo para usarlo como quieras — podcasts, videos, anuncios, audiolibros. Sin regalías sobre el audio generado.

Question 8

¿Qué pasa con mis muestras si elimino la voz?

Accepted Answer

La eliminación es inmediata desde la UI; el audio R2 subyacente se elimina en 24 horas por limpieza en segundo plano. Nunca usamos audio de referencia subido por clientes para entrenar nuestros modelos.

Texto a voz con IA online

¿Qué hace esta herramienta de texto a voz con IA?

Clonación de voz zero-shot, sin tiempo de entrenamiento

9 idiomas, 18 dialectos chinos

Usa tu propia voz, la de un familiar o un amigo

Paga por carácter — sin necesidad de suscripción

Prosodia y ritmo naturales

Privacidad: tus muestras de voz, tú las eliminas cuando quieras

¿Qué puedes hacer con texto a voz?

Lee artículos con tu propia voz (commute / estudio)

Genera intros y outros de podcast

Arregla una frase en una grabación

Contenido multilingüe desde una voz solo en inglés

Audio sentimental con la voz de un ser querido

Preguntas frecuentes sobre texto a voz

¿En qué se diferencia de otras herramientas de texto a voz?

¿Cuánto debe durar el audio de referencia?

¿Puedo clonar la voz de una celebridad o personaje ficticio?

¿Qué idiomas soporta?

¿Cuánto cuesta?

¿Cuánto tarda en generar?

¿Puedo usar el audio comercialmente?

¿Qué pasa con mis muestras si elimino la voz?

Herramientas relacionadas

Clonar voz

Quitar voz

Quitar música del video