音声合成を使う側として、ずっと感じていた「物足りなさ」がある。どんなに自然な声でも、読み上げは読み上げにしか聞こえない。テキストを渡せば、AIは正確に読む。でも、「そこは間を置いてほしい」「もっと明るいトーンで」という意図は、ほとんど伝わらなかった。
Googleは4月、Gemini 3.1 Flash TTS: New text-to-speech AI modelを公開した。新しいのは音質の向上だけではない。audio tagsと呼ばれる仕組みにより、テキスト内に自然言語で音声スタイルの指示を埋め込めるようになった。70言語以上に対応し、SynthIDによる透かしが全音声に付与される。
制御の構造が変わる
ここでの本質的な変化は「音質の向上」より「制御の構造」にある。
従来のTTSは、声質・速度・言語を選ぶことはできても、発話の意図や文脈的なニュアンスを渡す手段がなかった。「強調したい」「間を置く」「囁くように」——こういった意図は、音声生成において長らく人間の収録でしか表現できないものだった。
audio tagsはその壁を崩す。自然言語タグをテキストに差し込むことで、特定の語句の感情的なトーン、ペース、声の質を細かく指定できる。Google AI StudioではGUI上でファインチューニングしてエクスポートも可能で、設定の再利用や一貫性の担保を開発フローに組み込める。
実務で変わること
ポッドキャスト風コンテンツの自動生成、ナレーション制作の効率化、多言語対応プロダクトでの音声UX設計——いずれも「そこそこ自然な読み上げ」から「意図を込めた表現」への移行が、品質の閾値を大きく変える。
70言語以上での対応も注目に値する。英語圏の音声AIと日本語など非英語圏の質差は長年の課題だったが、多言語での表現制御が同一モデルで実現されれば、グローバル展開する開発者の選択肢が変わる。
SynthIDによる透かしが標準搭載されている点も、現実的な採用判断に効いてくる。AI生成音声の識別可能性は、将来の規制環境への備えとして今から設計に織り込める要素だ。
TTSは「読めれば十分」な技術から、「どう読むかを設計できる」技術へ変わりつつある。audio tagsは、その設計の主導権を開発者に渡す試みだ。音声体験の質を製品の競争要素と見るなら、仕組みを把握しておくタイミングとして早すぎることはない。
関連記事
- Gemma 4: Byte for byte, the most capable open models
- Gemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoning
- Partnering with industry leaders to accelerate AI transformation
参考文献
コメント