Question 1

和普通文本转语音工具有什么区别?

Accepted Answer

三个区别:(1) VocalDock 可以先用积分生成和测试流程,再决定是否购买更多额度。(2) TTS 音色和人声分离、降噪、格式转换等工具共用一个账号。(3) 你保存的是一个可复用的授权音色资产,不用每次生成都重新上传参考音频。

Question 2

参考音频要多长?

Accepted Answer

5 到 30 秒是黄金区间。我们用前 28 秒,上限 20 MB。清晰朗读、无背景音乐 / 噪音的样本克隆效果最好 — 嘈杂录音会让克隆音色也变嘈杂。

Question 3

可以克隆明星音色或动漫角色吗?

Accepted Answer

只能上传你有权使用的音色。不要上传公众人物、配音演员、版权角色的音频(未经授权)。我们的内容规范(以及大多数地区的形象权法律)禁止未经同意克隆真实人物声音。

Question 4

支持哪些语言?

Accepted Answer

9 种主流语言开箱可用(中、英、日、韩、德、西、法、意、俄)加 18 个中文方言(粤语 / 四川话 / 上海话等)。同一个克隆音色跨所有语言通用 — 英文录一次,日文文字也能念。

Question 5

费用怎么算?

Accepted Answer

15 积分 / 1000 字符,单次最低 5 积分。一篇约 3000 字符的短文章需要 45 积分。新用户注册赠送启动积分,可先测试效果。

Question 6

生成要多久?

Accepted Answer

首次请求通常 10-30 秒(冷启动,模型加载 GPU),后续 5-10 秒(warm container)。长文本耗时按比例增加,模型逐句生成。

Question 7

生成的音频可以商用吗?

Accepted Answer

可以,只要是你自己音色 或 有授权的音色生成的内容。音频文件本身可以随便用 — 播客、视频、广告、有声书均可。生成的音频不收版税。

Question 8

删除音色后参考音频去哪了?

Accepted Answer

UI 上立刻删除,底层 R2 音频 24 小时内由后台清理任务删除。我们绝不用客户上传的参考音频来训练或改进模型。

AI 文本转语音,用你自己的声音朗读

这个 AI 文本转语音工具能干什么?