文字だけじゃ伝わらない。 | cloud.config Tech Blog

皆さん、はじめまして！2024年度新入社員の仲田泰都です。これからよろしくお願いします！

突然ですが、文字だけで気持ちを伝えるのって難しいですよね。遠くにいても口で話して、耳で聞けるツールがある時代に生まれてよかったです。

そんな時代におじいさんと文字で会話している対話系AIくんがいたので、耳をつけてあげた話をしていきたいと思います。

AIに耳？

AIにも、実は、人間と同じように目(文字を読む力)、口(話す力)、耳(音を聴く力)があります！ほとんどの対話系AIは目と口を持っていますが、耳を持っているかはまちまちです。

耳があったらおじいさんの気持ちをより理解できて、おじいさんと楽しく会話できるはずだ！

ということでAIくんにとりつけてあげました。

AIくんはこれまで文字を読んで、文脈から返事を考えていました。耳をもらったことで音の強弱などの情報を得て、文字からだけでは理解することが難しいニュアンスを理解することができるようになります。

BERTで学習することで得て文脈的特徴による予測を行っていた傾聴応答生成モデルを、

スペクトグラム化(音声を機械が理解できる状態にすること)した音声をLSTMで学習することで得られる音声の語りの抑揚などの時間的特徴による予測が行うことができるようにしました。

このことを

「耳をつける」

と、表現しています。

ちなみに、実装はpythonを用いて行いました。

実際に、おじいさんの語りに対するAIくんの変化を見ていきたいと思います。

おじいさんは昔の話をAIくんに話してくれていますね。

「大変な時期にさしかかっておりまして。」

「はい」

文字の特徴による予測を行うと、単なる頷きの応答ですね。

↓耳をつけてあげると…(音声の特徴による予測を加える)

「大変ですね」

応答が耳をつけてあげたことによって「はい」というシンプルな頷きから「大変ですね」というおじいさんの語りに寄り添う形になりました！

AIくんも人間と同じですね。

私もSNSで文字だけで会話しようとするとうまく伝わらず、鈴木雅之さんが頭に出てきます。

「ちがう、そうじゃない」

伝わりますかね？

ちょうど音楽の話がでましたが、音楽もまた音を使って表現しているものの一つですよね～。

私自身、音楽は大好きなのでおすすめの曲おしえてください！

今回はAIくんに耳をつけてあげた話でした！
初めての機械学習で正直とても難しかったです。

すこしずつコツコツ学習していくことが必要でした。

それでも、自分でAIをつくるという経験はAIを知るうえですごくためになる経験でした。

皆さんもAIをつくるときは何をあげるか考えてあげてくださいね。

ブログも、難しかったです…