VocalDock

AI 文本转语音,用你自己的声音朗读

上传一段已授权的语音样本,保存成你的音色,再用它生成 9 种语言的自然语音。按用量付费,无订阅。

这个 AI 文本转语音工具能干什么?

上传一小段已授权的语音样本,把文字转成那个音色的自然语音。VocalDock 使用 Fun-CosyVoice 3.0 做 zero-shot 语音克隆,不用漫长训练,保存音色后即可复用。

零样本克隆,无需训练时间

上传 5-30 秒清晰朗读,音色立刻可用。不用录 10 分钟训练样本,不用等几小时训练模型 — 保存即生效。

9 种语言 + 18 中文方言

支持中英日韩、德西法意俄 9 种主流语言,外加粤语 / 四川话 / 上海话等 18 个中文方言。同一个克隆音色跨所有语言通用。

用你自己的、家人的、朋友的声音

很多阅读器只能用平台固定音色,VocalDock 让你带入已授权的声音样本。可以用自己的声音听文章,也可以在获得明确同意后使用家人的声音。

按字符计费 — 无订阅

1000 字符 15 积分,单次最低 5 积分用于覆盖 GPU 启动成本。无月费,新用户启动积分足够先测试完整流程。

自然停顿和韵律

CosyVoice 3 更偏自然语流,比传统机械 TTS 更擅长句子节奏、停顿和重音。

隐私:音色样本随时删,从不被用来训练

上传的参考音频留在你账号里。删除音色后,底层 R2 音频 24 小时内异步清理。我们绝不用客户音频训练或改进模型。

文本转语音能怎么用?

用户克隆首个音色后常见的工作流:

通勤 / 学习时听文章(用自己的声音)

粘贴网页文章、博客、PDF 文字 — 用自己的声音听。校对自己写的文章特别有效(听自己念比读更容易发现错),或者通勤路上把长文当播客听。

生成播客开场 / 结尾配音

录一段干净音色,然后每集开场结尾都用同一个克隆音色生成,不用每次重录。改文案就改一行字。

录音里改一句话

播客或视频配音录完发现口误?别重录整段 — 用录好的好部分克隆音色,生成正确那一句,直接拼回去。

用一份英文音色做多语言内容

跨语言模式让你英文克隆的音色说日文 / 中文 / 西语文字 — 适合 YouTuber 做多语言版本,不用找母语配音员。

用亲人音色做有纪念意义的音频

在获得声音本人明确同意后,可以生成家人朗读诗歌、睡前故事或个人留言的音频。这个场景必须以授权和尊重为前提。

文本转语音常见问题

跟 ElevenLabs 有什么区别?

三个区别:(1) VocalDock 更强调按量付费,不强制订阅。(2) TTS 音色和人声分离、降噪、格式转换等工具共用一个账号。(3) 你保存的是一个可复用的授权音色资产,不用每次生成都重新上传参考音频。

参考音频要多长?

5 到 30 秒是黄金区间。我们用前 28 秒,上限 20 MB。清晰朗读、无背景音乐 / 噪音的样本克隆效果最好 — 嘈杂录音会让克隆音色也变嘈杂。

可以克隆明星音色或动漫角色吗?

只能上传你有权使用的音色。不要上传公众人物、配音演员、版权角色的音频(未经授权)。我们的内容规范(以及大多数地区的形象权法律)禁止未经同意克隆真实人物声音。

支持哪些语言?

9 种主流语言开箱可用(中、英、日、韩、德、西、法、意、俄)加 18 个中文方言(粤语 / 四川话 / 上海话等)。同一个克隆音色跨所有语言通用 — 英文录一次,日文文字也能念。

费用怎么算?

15 积分 / 1000 字符,单次最低 5 积分。一篇约 3000 字符的短文章需要 45 积分。新用户注册赠送启动积分,可先测试效果。

生成要多久?

首次请求通常 10-30 秒(冷启动,模型加载 GPU),后续 5-10 秒(warm container)。长文本耗时按比例增加,模型逐句生成。

生成的音频可以商用吗?

可以,只要是你自己音色 或 有授权的音色生成的内容。音频文件本身可以随便用 — 播客、视频、广告、有声书均可。生成的音频不收版税。

删除音色后参考音频去哪了?

UI 上立刻删除,底层 R2 音频 24 小时内由后台清理任务删除。我们绝不用客户上传的参考音频来训练或改进模型。