Question 1

一般的なテキスト読み上げツールとの違いは？

Accepted Answer

主に3つあります。（1）VocalDockは、ワークフローを試してからクレジットで生成できます。（2）TTS音声は、ボーカル分離、ノイズ除去、変換など他のVocalDock音声ツールと同じ場所で扱えます。（3）保存済みの声アセットを中心にしたワークフローなので、許可済みサンプルを毎回アップロードせず再利用できます。

Question 2

参照音声はどれくらい必要ですか？

Accepted Answer

5〜30秒が目安です。最初の28秒を使い、20 MBまで対応します。背景音楽やノイズのない明瞭な発話が最も良いクローンにつながります。ノイズの多い録音をアップロードすると、クローン音声もノイズっぽくなる場合があります。

Question 3

有名人や架空キャラクターの声をクローンできますか？

Accepted Answer

利用許可のある声だけです。公人、声優、著作権キャラクターの音声を無断でアップロードしないでください。コンテンツガイドラインおよび多くの地域のパブリシティ権では、本人の同意なしに実在人物の声クローンを作ることを禁じています。

Question 4

対応言語は？

Accepted Answer

標準で9言語（英語、中国語、日本語、韓国語、ドイツ語、スペイン語、フランス語、イタリア語、ロシア語）に対応し、広東語、四川語、上海語など18の中国語地域方言にも対応します。同じクローン音声をすべての言語で使えます。英語で録音して、日本語テキストを読ませることもできます。

Question 5

料金はいくらですか？

Accepted Answer

1000文字あたり15クレジット、1タスク最低5クレジットです。約3000文字の短い記事なら45クレジットです。新規ユーザーにはテスト用の無料スタータークレジットがあります。

Question 6

生成にはどれくらい時間がかかりますか？

Accepted Answer

最初のリクエストはモデルをGPUへ読み込むため通常10〜30秒、その後の連続生成は5〜10秒程度です。長いテキストは文ごとに生成するため、長さに応じて時間が増えます。

Question 7

生成音声を商用利用できますか？

Accepted Answer

自分の声、または声の持ち主から明確な許可を得た声で作成したコンテンツなら可能です。生成された音声ファイルは、ポッドキャスト、動画、広告、オーディオブックなど自由に使えます。生成音声にロイヤリティはありません。

Question 8

声を削除するとサンプルはどうなりますか？

Accepted Answer

UI上ではすぐに削除され、裏側のR2音声ファイルはバックグラウンド処理で24時間以内に削除されます。顧客がアップロードした参照音声をモデル学習や改善に使うことはありません。

自分の声でAIテキスト読み上げ

このAIテキスト読み上げツールでできること

ゼロショット声クローン、学習時間なし

9言語、18の中国語方言

自分の声、家族の声、友人の声を利用

文字数課金、サブスク不要

自然な抑揚とテンポ

プライバシー：声サンプルはいつでも削除可能

テキスト読み上げの使い道

自分の声で記事を読む（通勤・学習）

ポッドキャストのイントロ・アウトロを生成

録音の一文だけを修正

英語だけの声から多言語コンテンツ

大切な人の声で思い出音声

テキスト読み上げ FAQ

一般的なテキスト読み上げツールとの違いは？

参照音声はどれくらい必要ですか？

有名人や架空キャラクターの声をクローンできますか？

対応言語は？

料金はいくらですか？

生成にはどれくらい時間がかかりますか？

生成音声を商用利用できますか？

声を削除するとサンプルはどうなりますか？

関連ツール

音声クローン

ボーカルリムーバー

動画からBGMを除去