1 音声合成と親和性の高い他の技術との関係

様々な場面で「音声によるUI」が発達し、音声合成を組み込んだサービスの形になっています。例えば、スマートスピーカーに対して、音声で命令を与え、答えが返ってきて何かを実行する、という流れを簡単に見てみましょう。

 

(1)人間が言葉を出す

(2)スマートスピーカーのマイクが人間の言葉を拾う

(3)拾った音声信号を雑音除去等のデジタル処理

(4)処理された信号の言語解析(日本語のルールに基づく文法的な形態素解析)

=音声認識

(5)解析された言葉からキーワードを抽出し、返答用データベースから返答を選択

=DB作成・条件分岐プロトコル

(6)返答用データベースから選択されたデータを音声合成処理部に送信

(7)音声合成で作成された音声波形をスピーカーに送り、発声

=音声合成

(8)同時に何かを実行(音楽を再生するなど)

 

(2)(3)(4)の流れは人間が発声した音を日本語の言葉として理解をするための「音声認識」技術になります。(5)はそれまでの処理で抽出されたキーワードに対応する処理のアクションとなります。ゲームで言えば、Aボタンを押されたらキャラをジャンプさせる、などの内部処理に相当します。(6)がこれから説明する「音声合成」になります。(7)(8)は(5)と同じく、サービス特有の内部処理。

このように、「音声合成」は、いわゆる「音声認識」「動作処理のデータベース」などと組み合わされる形で用いられることもしばしばあり、総合的に良いサービスを作るためには、そういった親和性の高い技術についても理解を深めることで、より良い使い方ができることになります。ここでは、そういった技術にも言及していきたいと思います。