Match-TTS-Japanese Spaces

Github

a not official fork of matcha-tts for japanese language.

some onnx codes help english-tts

Difference

Models
EN001 - English trained single speaker.

Matcha-TTS 日本語

Matcha-TTSは比較的新しいTTSエンジンです。 これからのAIには音声合成機能は欠かせません。TTSの最重要項目はデータセットです。エンジンはデーターセットほど品質で違いは生み出せません。 データーセットから作成したモデルが揃っていれば、知名度が低くても十分です。 そしてMatcha-TTSは速度・容量・ライセンス的に、実用性においては他と比べて大きく劣る要素はありません。

違い

モデル

出来そうな気もするけど、シングルとマルチスピーカの変換の仕方はわかりません。 正直、シングルがずば抜けて品質がいいわけではなく、サイズ的な違いは少なく、話者100人と1人だと、マルチスピーカーの方がお得感があるので、話者の数が少なくてもマルチスピーカーの訓練を主にしています。  ただ、まだまだ、研究中です。最終的にはシングルでトレーニングしたのをコーパス出力して、それをマルチスピーカーで結合するのがいいかと思っています。

Speakerの違い

Single Speaker

Multi Speaker

最終品質

音質とイントネーションのバランスで苦労しています。

品質検出ツールがない

Phonemize

Tacorton2-Japanseにあるように、いろいろ変換方式ありますが、ブラウザーで使えないので検討中です。

シングルスピーカーモデル

まだブラウザーで動く、Phonemizerが出来ていないので、正式にはモデルは非公開中

モデル制作の感想

大きいモデルは、いきなり作るとイントネーションが残念なことになるので、以前作っていたモデルをベースに継続している。代わりに音が残念なことになっている。