前置き
皆さん、「分かりにくい授業」に出会ったことはありませんか?
私はあります。分かりにくいと楽しくないですよね。
なんで分かりにくいんでしょうか。
声量?声質?専門用語の量?
色々、分かりにくくなる要素はあると思います。
フィラーの存在
さて、いきなり「フィラー」という言葉を聞かされて戸惑っているかもしれません。
フィラーというものを知っているでしょうか?
フィラーとは、「えっと」や「まあ」「あのー」などの単語のことです。
これらの単語は一般的には無意味とされており、これらの単語が多くなると授業が分かりにくくなるということが分かっています。
例)私はえーとあのーそのまあゲームが好きなんですよ
この文分かりにくくないですか?
そうです。フィラーが大量に含まれているからです。
課題
さて、フィラーが多いなら、それらを検出して、自動的に消してあげれば分かりやすくなるでしょう。
しかし、これが今まではできなかったのです。
原因はフィラーの検出精度の悪さです。
例えば、「まあ」というフィラーは副詞に分類されてしまったり、形容詞に分類されてしまったりと。。
形容詞や副詞を消したら大変なことになります。
例)あの山は美しいです。
解決方法
MeCabというツールを使います。
MeCabというツールを使うことで、動詞や名詞、副詞などの品詞を勝手に分けてくれます。
さらに今回の目的であるフィラーも分類対象です。
ただ、このままでは検出精度は悪いままなので、再学習機能を使って、修正していきます。
再学習方法
ざっくり、説明します。
- フィラーを含む文を用意する
- MeCabで解析する。
- 誤検出している部分を修正し、学習用のデータにする。
- 学習用のデータを用いてMeCabに学習させる
この4ステップだけです。簡単そうですか?
結果
フィラーの検出率は100% になりました。
めでたし。めでたし。
と言いたいところですが、検出率が良くなっただけでフィラーを消すことはまだ出来ていません。
これらの自動化はまた次にやろうと思います。
以上!ご清覧ありがとうございました