音響モデルを自作する1(概要)

投稿者:マーチン 2016年9月3日

 OpenJTalkで使える音響モデルを自作したいと思い、それに必要な情報を集めました。

●音響モデルとは

 HMM 音声合成システム (HTS) の開発(名古屋工業大学 徳田教授ら, 2007年)の抄録から引用すると、

 隠れマルコフモデル (HMM) に基づく統計的パラメトリック音声合成方式が注目されている.本方式では,音声スペクトル・励振源・継続長がコンテキスト依存 HMM により同時にモデル化される.音声合成時は,合成したい文章に対応する HMM からの出力確率が最大となるよう,継続長・スペクトル・励振源系列を決定した後,音声合成フィルタを用いて波形が出力される.2002 年より我々は,HMM に基づく音声合成のための研究・開発ツール「HMM 音声合成システム(HTS)」を,オープンソースソフトウェアとして公開してきた.


●音響モデルを作成する手順

 独自の音響モデルを作成する手順は、以下のようになります。
  1. ATR503文章を読み上げた音声データを準備する。
  2. 音声データに含まれる音素にラベル付けしたファイルを作成する。
  3. 音声データとラベルデータで、音響モデルを学習させる。
 作成手順とは違いますが、以下の順に実行してみたので、それに沿った記事で連載していきます。
    その1.音響モデルの概要
    その2.プログラムを実行するのに必要なLinux環境を整備する。
    その3.音声データと音素ラベルファイルから音響モデルを学習するプログラムをインストールする。
    その4.サンプルデータを使って音響モデルを作成する。
    その5.音声データから音素ラベルファイルを作成する環境を構築する。
    その6.独自の音声データから音響モデルを作る。
    その7.警告メッセージへの対処とパラメータの調整をする。

●音響モデル 関連リンク



◆連載

◆関連記事

Copyright © まほろば. All Rights Reserved.(http://mahoro-ba.net/)