自分の声でAIテキスト読み上げ
許可を得た短い声のサンプルをアップロードして保存し、9言語で自然な読み上げ音声を生成できます。サブスク不要、使った分だけ支払い。
このAIテキスト読み上げツールでできること
許可を得た短い声のサンプルをアップロードし、その声で自然な読み上げ音声を作成できます。VocalDockはFun-CosyVoice 3.0によるゼロショット声クローンを使うため、長い学習なしで再利用できる声を作れます。
ゼロショット声クローン、学習時間なし
5〜30秒の明瞭な発話をアップロードすると、すぐに声を利用できます。10分の学習サンプルも、モデル学習の長い待ち時間も不要です。保存した瞬間からクローン音声を使えます。
9言語、18の中国語方言
英語、中国語、日本語、韓国語、ドイツ語、スペイン語、フランス語、イタリア語、ロシア語で音声を生成できます。広東語、四川語、上海語など18の中国語地域方言にも対応。1つのクローン音声をすべての言語で使えます。
自分の声、家族の声、友人の声を利用
固定の音声ライブラリだけに縛られる読み上げツールとは違い、VocalDockでは許可済みの声サンプルを持ち込めます。自分の声で記事を読ませたり、明確な許可を得た家族の声を使ったりできます。
文字数課金、サブスク不要
1000文字あたり15クレジット、GPU起動コストを含めるため1タスク最低5クレジットです。月額料金は不要。無料スタータークレジットで購入前に試せます。
自然な抑揚とテンポ
CosyVoice 3は古いロボット的なTTSより自然なリズムを目指して設計されており、ポーズ、強調、文単位のテンポが改善されています。
プライバシー:声サンプルはいつでも削除可能
アップロードした参照音声はあなたのアカウントに保存されます。声を削除すると参照音声も24時間以内に削除します。顧客の声をモデル学習に使うことはありません。
テキスト読み上げの使い道
最初の声をクローンした後によく使われるワークフロー:
自分の声で記事を読む(通勤・学習)
Web記事、ブログ、PDFのテキストを貼り付け、自分の声で聞けます。自分の文章の確認にも便利で、耳で聞くとミスに気づきやすくなります。散歩中に長文を聞く用途にも向いています。
ポッドキャストのイントロ・アウトロを生成
一度よい声サンプルを録音すれば、毎回録り直さずに各エピソードのイントロ/アウトロを同じ声で作れます。更新はテキスト編集だけです。
録音の一文だけを修正
ポッドキャストや動画ナレーションで一語だけ言い間違えた場合、良い部分から声をクローンし、修正した一文を生成して差し替えられます。全体を録り直す必要はありません。
英語だけの声から多言語コンテンツ
クロスリンガルモードにより、英語でクローンした声が日本語、中国語、スペイン語のテキストを話せます。YouTuberがネイティブ声優を雇わずに複数言語トラックへ展開する時に便利です。
大切な人の声で思い出音声
声の持ち主から明確な許可を得た上で、家族が詩、寝かしつけの物語、個人的なメッセージを読む音声を作れます。VocalDockは同意を前提にしたワークフローを重視します。
テキスト読み上げ FAQ
ElevenLabsとの違いは?
主に3つあります。(1)VocalDockはサブスク強制ではなく、使った分だけ支払う方式を重視しています。(2)TTS音声は、ボーカル分離、ノイズ除去、変換など他のVocalDock音声ツールと同じ場所で扱えます。(3)保存済みの声アセットを中心にしたワークフローなので、許可済みサンプルを毎回アップロードせず再利用できます。
参照音声はどれくらい必要ですか?
5〜30秒が目安です。最初の28秒を使い、20 MBまで対応します。背景音楽やノイズのない明瞭な発話が最も良いクローンにつながります。ノイズの多い録音をアップロードすると、クローン音声もノイズっぽくなる場合があります。
有名人や架空キャラクターの声をクローンできますか?
利用許可のある声だけです。公人、声優、著作権キャラクターの音声を無断でアップロードしないでください。コンテンツガイドラインおよび多くの地域のパブリシティ権では、本人の同意なしに実在人物の声クローンを作ることを禁じています。
対応言語は?
標準で9言語(英語、中国語、日本語、韓国語、ドイツ語、スペイン語、フランス語、イタリア語、ロシア語)に対応し、広東語、四川語、上海語など18の中国語地域方言にも対応します。同じクローン音声をすべての言語で使えます。英語で録音して、日本語テキストを読ませることもできます。
料金はいくらですか?
1000文字あたり15クレジット、1タスク最低5クレジットです。約3000文字の短い記事なら45クレジットです。新規ユーザーにはテスト用の無料スタータークレジットがあります。
生成にはどれくらい時間がかかりますか?
最初のリクエストはモデルをGPUへ読み込むため通常10〜30秒、その後の連続生成は5〜10秒程度です。長いテキストは文ごとに生成するため、長さに応じて時間が増えます。
生成音声を商用利用できますか?
自分の声、または声の持ち主から明確な許可を得た声で作成したコンテンツなら可能です。生成された音声ファイルは、ポッドキャスト、動画、広告、オーディオブックなど自由に使えます。生成音声にロイヤリティはありません。
声を削除するとサンプルはどうなりますか?
UI上ではすぐに削除され、裏側のR2音声ファイルはバックグラウンド処理で24時間以内に削除されます。顧客がアップロードした参照音声をモデル学習や改善に使うことはありません。