Aratako's picture
Update README_ja.md
6fcd0e3 verified
metadata
license:
  - gemma
  - cc-by-nc-4.0
language:
  - en
  - zh
  - ja
base_model:
  - google/t5gemma-2b-2b-ul2
pipeline_tag: text-to-speech
library_name: transformers
tags:
  - speech
  - tts
datasets:
  - amphion/Emilia-Dataset
  - pkufool/libriheavy

T5Gemma-TTS-2b-2b

GitHub WandB Demo Space

T5Gemma-TTS-2b-2b は、個人プロジェクトとして開発された多言語対応の音声合成(TTS)モデルです。Encoder-Decoder型のLLMアーキテクチャを採用しており、英語、中国語、日本語に対応しています。

🌟 概要

本モデルは、google/t5gemma-2b-2b-ul2 の重みで初期化されたEncoder-DecoderのLLMベースのTTSシステムです。事前学習済みのLLMの重みを活用していますが、TTSタスク専用に音声部分はスクラッチから学習を行っています。

Hugging Face Spaces にてインタラクティブなデモをお試しいただけます: T5Gemma-TTS Demo

主な特徴

  • 多言語対応: 英語、中国語、日本語をサポートしています。
  • 音声クローン: 参照音声からのzero-shot voice cloningが可能です。
  • 発話時間の制御: 生成される音声の長さをユーザーが明示的に制御可能です。
  • オープンソースなコード: 学習コードおよび推論スクリプトをGitHubで公開しています。

Note: 本モデルは個人開発プロジェクトとして開発されたものです。現時点では、客観的な評価指標(WER/CER、SIM-Oなど)のデータはありません。

🏗️ 技術的詳細

アーキテクチャ

アーキテクチャは VoiceStar (arXiv:2505.19462) に着想を得て設計されています。長さ制御のための PM-RoPE などの機構を採用しています。

学習データ

170,000時間 の公開音声データセット(主にEmilialibriheavy)を使用して学習を行いました。

言語 およそのデータ量
英語 ~100k 時間
中国語 ~50k 時間
日本語 ~20k 時間

学習ハードウェア

学習には AMD Developer Cloud を使用し、8x MI300X GPUを用いて約2週間トレーニングを行いました。

  • 学習ログはこちらで確認できます: WandB

🎧 音声サンプル

T5Gemma-TTS-2b-2bによって生成されたサンプル音声です。

1. 多言語TTS

各言語での基本的なテキスト読み上げの生成例です。

言語 テキストプロンプト 音声
English "The old library was silent, save for the gentle ticking of a clock somewhere in the shadows. As I ran my fingers along the dusty spines of the books, I felt a strange sense of nostalgia, as if I had lived a thousand lives within these walls."
Chinese "那是一个宁静的夜晚,月光洒在湖面上,波光粼粼。微风轻拂,带来了远处花朵的清香。我独自坐在岸边,心中涌起一股莫名的感动,仿佛整个世界都在这一刻静止了。"
Japanese "その森には、古い言い伝えがありました。月が最も高く昇る夜、静かに耳を澄ませば、風の歌声が聞こえるというのです。私は半信半疑でしたが、その夜、確かに誰かが私を呼ぶ声を聞いたのです。"

2. 発話時間制御

同じテキストを異なる長さの制約を与えて生成した例です。

英語の例

Text: "This new model allows users to strictly control the duration of the generated speech.

目標時間 生成音声
3.0s (Fast)
5.0s (Normal)
7.0s (Slow)

日本語の例

Text: "このモデルでは、生成音声の長さを自由に調整できます。"

目標時間 生成音声
3.0s (Fast)
5.0s (Normal)
7.0s (Slow)

3. Voice Cloning (Zero-shot)

参照音声を使用したVoice Cloningの例です。

Note: 以下の参照音声は NandemoGHS/Anime-Llasa-3B および gemini-2.5-pro-preview-tts を使用して生成されたものです。

ケース 参照音声 (Reference) 生成音声 (Generated)
Example 1
Example 2
Example 3

🚀 使用方法

推論コード、インストール手順、および学習スクリプトについては、以下のGitHubリポジトリを参照してください。

👉 GitHub

⚠️ 制限事項

  • 推論速度: 本モデルはリアルタイムTTS向けに最適化されていません。音声トークンの自己回帰生成には相応の時間がかかるため、低遅延が求められる用途には適していません。
  • 時間制御: 生成時間の明示的な指定は可能ですが、制御は完全ではありません。指定した時間と実際の音声長が異なったり、時間が合っていても発話のペースや自然さが損なわれる場合があります。
  • 音質: 音質は学習データの特徴に依存します。学習データに含まれていない声質、アクセント、話し方などでは性能が低下する可能性があります。

📜 ライセンス

本モデルは デュアルライセンス ポリシーの下で公開されています。利用者は以下の両方の条件を厳守する必要があります。

  1. Gemma Terms of Use: 本モデルは google/t5gemma-2b-2b-ul2 から派生しているため、Gemmaの利用規約に従う必要があります。
  2. CC-BY-NC 4.0: 学習データセット(Emiliaなど)の制約により、本モデルは 非商用利用のみ (Non-Commercial Use Only) に制限されます。

⚠️ コーデックに関する重要事項: 使用している音声コーデック XCodec2CC-BY-NC ライセンスの下で公開されています。生成された音声を使用する際は、こちらのライセンス条件も遵守してください。

倫理的制約: 本モデルを使用して、特定の個人(声優、著名人、公人など)の声を、本人の明示的な同意なくクローン(なりすまし)することを禁止します。

🙏 謝辞

本プロジェクトを実現するにあたり、以下のオープンソースプロジェクトおよびリソースに感謝いたします。

🖊️ 引用 (Citation)

本モデルを引用する場合は、以下のように引用してください。

@misc{t5gemma-tts,
  author = {Aratako},
  title = {T5Gemma-TTS-2b-2b: An Encoder-Decoder LLM-based TTS Model},
  year = {2025},
  publisher = {Hugging Face},
  journal = {Hugging Face repository},
  howpublished = {\url{[https://huggingface.co/Aratako/T5Gemma-TTS-2b-2b](https://huggingface.co/Aratako/T5Gemma-TTS-2b-2b)}}
}