音声認識の仕組み

こんにちは、2022年入社の二宮です。
今回は音声認識の仕組みについて超簡単に書いていこうと思います。

音声認識とは

音声認識とは、音声をコンピュータに認識させる技術です。
身近なものだと、スマートスピーカーのAlexaや、スマートフォンの音声アシスタントのSiriや、Googleアシスタントなどに使用されています。

音声認識には大きく分けて4つの工程があります。

１．特徴量の抽出

元の音声をデジタル化しノイズ除去などの処理を行うことで、音声の特徴量を抽出します。

２．音素の抽出

音声の特徴量と音素の持つ特徴量を比較することで、音素を抽出します。
音素とは、音声の最小構成要素のことです。例えば、「ねこはいます」は「n-e-k-o-h-a-i-m-a-s-u」と11の音素で表すことができます。

３．発話辞書

発話辞書は、音素と単語を紐づけるものです。
発話辞書によって、音素から単語へと変換することができます。これによって、「n-e-k-o-h-a-i-m-a-s-u」という音素を「ねこ」「は」「います」や、「ねこ」「はい」「ます」、「ねこ」「は」「いま」「す」などの日本語の単語群へと変換することができます。

４．言語モデル

言語モデルでは、単語群から意味のある文章へと変換します。
例えば、「ねこ」「は」「います」という単語群は、「ねこ」「はい」「ます」のような単語群として認識される場合もあります。言語モデルでは、どの単語の組み合わせが日本語として出現する確率が高いかを判断することで、意味を持たない単語群を意味を持つ日本語の文章にします。

終わりに

音声認識の仕組みについて書きました。
音声認識の技術は様々な場面で活用されています。
議事録作成や電子カルテ作成など、業務における活用例も多くあるので、皆さんもぜひ活用してみてください。