富士通研、多彩な声を短時間で作成できる音声合成技術を開発

株式会社富士通研究所は、高品質で多彩な声を短時間で作成できる音声合成技術を開発したと発表した。

同技術は、利用シーンや利用環境に合わせたトーンで情報を伝える音声合成技術。緊急時は警告感のあるトーン、雑音の激しいところでは通りやすい音声にするなど、現場の状況に応じたトーンで合成することが可能で、高品質で多彩な声を従来比約30分の1の短時間で作成できる。また、親しみやすい声やキャラクターの特徴的な音など、利用者が要望するサービスイメージに合った高品質な音声を提供できる。

同技術では、従来よりも柔軟な合成を実現するため、音声を声質、イントネーション、間の取り方など音声の複数の特徴をうまく捉えたパラメーターに変換して合成する方式を採用している。特徴的な声のトーンと普段の声のトーンとの違いをパラメーターに反映させることで、きめ細かなトーンの音声合成を実現し、話速や声の高さ、明るさを一様に調整するだけでなく、リアルな表現で情報を伝えられる。

パラメーターに変換する技術と、機械学習を用いたアルゴリズムにより、音声の特徴を効率的に抽出できるため、元となる音声の収録が少量で済み、これにより新しい音声合成の声を短期間でカスタム提供できるようになった。同社は同技術の2014年度中の実用化を目指し、音声合成のさらなる高品質化を進めるとコメントしている。

開発した音声合成の概要

発表資料
URL：

MdN DIのトップぺージ