license:
- gemma
- cc-by-nc-4.0
language:
- en
- zh
- ja
base_model:
- google/t5gemma-2b-2b-ul2
pipeline_tag: text-to-speech
library_name: transformers
tags:
- speech
- tts
datasets:
- amphion/Emilia-Dataset
- pkufool/libriheavy
T5Gemma-TTS-2b-2b
T5Gemma-TTS-2b-2b は、個人プロジェクトとして開発された多言語対応の音声合成(TTS)モデルです。Encoder-Decoder型のLLMアーキテクチャを採用しており、英語、中国語、日本語に対応しています。
🌟 概要
本モデルは、google/t5gemma-2b-2b-ul2 の重みで初期化されたEncoder-DecoderのLLMベースのTTSシステムです。事前学習済みのLLMの重みを活用していますが、TTSタスク専用に音声部分はスクラッチから学習を行っています。
Hugging Face Spaces にてインタラクティブなデモをお試しいただけます: T5Gemma-TTS Demo
主な特徴
- 多言語対応: 英語、中国語、日本語をサポートしています。
- 音声クローン: 参照音声からのzero-shot voice cloningが可能です。
- 発話時間の制御: 生成される音声の長さをユーザーが明示的に制御可能です。
- オープンソースなコード: 学習コードおよび推論スクリプトをGitHubで公開しています。
Note: 本モデルは個人開発プロジェクトとして開発されたものです。現時点では、客観的な評価指標(WER/CER、SIM-Oなど)のデータはありません。
🏗️ 技術的詳細
アーキテクチャ
アーキテクチャは VoiceStar (arXiv:2505.19462) に着想を得て設計されています。長さ制御のための PM-RoPE などの機構を採用しています。
- ベースモデル: google/t5gemma-2b-2b-ul2 (重みの初期化に使用)
- 音声コーデック: XCodec2 およびその派生版
学習データ
約 170,000時間 の公開音声データセット(主にEmilia、libriheavy)を使用して学習を行いました。
| 言語 | およそのデータ量 |
|---|---|
| 英語 | ~100k 時間 |
| 中国語 | ~50k 時間 |
| 日本語 | ~20k 時間 |
学習ハードウェア
学習には AMD Developer Cloud を使用し、8x MI300X GPUを用いて約2週間トレーニングを行いました。
- 学習ログはこちらで確認できます: WandB
🎧 音声サンプル
T5Gemma-TTS-2b-2bによって生成されたサンプル音声です。
1. 多言語TTS
各言語での基本的なテキスト読み上げの生成例です。
| 言語 | テキストプロンプト | 音声 |
|---|---|---|
| English | "The old library was silent, save for the gentle ticking of a clock somewhere in the shadows. As I ran my fingers along the dusty spines of the books, I felt a strange sense of nostalgia, as if I had lived a thousand lives within these walls." | |
| Chinese | "那是一个宁静的夜晚,月光洒在湖面上,波光粼粼。微风轻拂,带来了远处花朵的清香。我独自坐在岸边,心中涌起一股莫名的感动,仿佛整个世界都在这一刻静止了。" | |
| Japanese | "その森には、古い言い伝えがありました。月が最も高く昇る夜、静かに耳を澄ませば、風の歌声が聞こえるというのです。私は半信半疑でしたが、その夜、確かに誰かが私を呼ぶ声を聞いたのです。" |
2. 発話時間制御
同じテキストを異なる長さの制約を与えて生成した例です。
英語の例
Text: "This new model allows users to strictly control the duration of the generated speech.
| 目標時間 | 生成音声 |
|---|---|
| 3.0s (Fast) | |
| 5.0s (Normal) | |
| 7.0s (Slow) |
日本語の例
Text: "このモデルでは、生成音声の長さを自由に調整できます。"
| 目標時間 | 生成音声 |
|---|---|
| 3.0s (Fast) | |
| 5.0s (Normal) | |
| 7.0s (Slow) |
3. Voice Cloning (Zero-shot)
参照音声を使用したVoice Cloningの例です。
Note: 以下の参照音声は NandemoGHS/Anime-Llasa-3B および gemini-2.5-pro-preview-tts を使用して生成されたものです。
| ケース | 参照音声 (Reference) | 生成音声 (Generated) |
|---|---|---|
| Example 1 | ||
| Example 2 | ||
| Example 3 |
🚀 使用方法
推論コード、インストール手順、および学習スクリプトについては、以下のGitHubリポジトリを参照してください。
👉 GitHub
⚠️ 制限事項
- 推論速度: 本モデルはリアルタイムTTS向けに最適化されていません。音声トークンの自己回帰生成には相応の時間がかかるため、低遅延が求められる用途には適していません。
- 時間制御: 生成時間の明示的な指定は可能ですが、制御は完全ではありません。指定した時間と実際の音声長が異なったり、時間が合っていても発話のペースや自然さが損なわれる場合があります。
- 音質: 音質は学習データの特徴に依存します。学習データに含まれていない声質、アクセント、話し方などでは性能が低下する可能性があります。
📜 ライセンス
本モデルは デュアルライセンス ポリシーの下で公開されています。利用者は以下の両方の条件を厳守する必要があります。
- Gemma Terms of Use: 本モデルは
google/t5gemma-2b-2b-ul2から派生しているため、Gemmaの利用規約に従う必要があります。 - CC-BY-NC 4.0: 学習データセット(Emiliaなど)の制約により、本モデルは 非商用利用のみ (Non-Commercial Use Only) に制限されます。
⚠️ コーデックに関する重要事項: 使用している音声コーデック XCodec2 も CC-BY-NC ライセンスの下で公開されています。生成された音声を使用する際は、こちらのライセンス条件も遵守してください。
倫理的制約: 本モデルを使用して、特定の個人(声優、著名人、公人など)の声を、本人の明示的な同意なくクローン(なりすまし)することを禁止します。
🙏 謝辞
本プロジェクトを実現するにあたり、以下のオープンソースプロジェクトおよびリソースに感謝いたします。
- VoiceStar - アーキテクチャの着想元
- T5Gemma - ベースモデル
- XCodec2 および XCodec2-Variant - 音声コーデック
🖊️ 引用 (Citation)
本モデルを引用する場合は、以下のように引用してください。
@misc{t5gemma-tts,
author = {Aratako},
title = {T5Gemma-TTS-2b-2b: An Encoder-Decoder LLM-based TTS Model},
year = {2025},
publisher = {Hugging Face},
journal = {Hugging Face repository},
howpublished = {\url{[https://huggingface.co/Aratako/T5Gemma-TTS-2b-2b](https://huggingface.co/Aratako/T5Gemma-TTS-2b-2b)}}
}
