退屈な自然言語処理の前処理を文節解析を用いて効率化 | cloud.config Tech Blog

はじめまして！2023年４月からFIXERに入社することになりました。

中山翔太(なかやましょうた)と申します。

初めてのTech Blog執筆ですが、頑張っていきたいと思います！

記事の概要

今回は、自分が大学時代に行っていた卒業研究である「文節解析に基づく特徴語抽出処理の効率化」について話していきたいと思います！

この研究は、自然言語処理のテキストデータ解析の分野で、研究内容を簡単に言ってしまえば、テキストデータから効率的にデータの前処理を行って特徴語を抽出する方法の研究なのですが、分野も研究もなんだそれって感じですよね？

なのでまず、研究に至るまでの背景、それから、自然言語処理って何なのか、データの前処理ってなんで必要なのかなど一つ一つ説明していきたいと思います！

最初は、就職活動を行う際のエントリーシートを書くための補助ツールを作成しようとしていました。

そこで、企業のホームページからテキストデータを集め、その企業の特徴となる語を抽出する必要がありました。

ですが、企業のテキストデータの前処理を行う際、とんでもなく地道でめんどくさいなと感じました。でも、それを効率化できるようなツールや記事などの手法はなかったんです。

そこで、この企業のテキスト情報を用いてテキストデータの前処理の効率化について研究してみたらどうかという話になり、この研究に着手しました。

自然言語処理は、私たちが普段使っている言葉をコンピュータに処理させる技術のことです。

簡単に言ってしまえば、たくさんの文章から重要な情報を抽出することです。

データの前処理までの手順としては基本的に、形態素解析→データ前処理の手順で行います。

テキストデータのように複数の単語によって構成されているものの中で、名詞や動詞、形容詞などの品詞に分割することのできる最小単位の文字列のことです。

日本語の形態素解析は、文として構成される単語を形態素単位に分割する処理のことです。

ここまで説明すると、なんとなく今回なんでこの研究を行うに至ったかなんとなく分かったかと思います。

ただ、今回は形態素解析ではなく、文節解析を用いています。それがなぜなのか説明していきたいと思います。

データの前処理を説明した際、形態素解析を行うと説明しましたが、形態素解析には、企業の特徴語となる形態素の組み合わせでできる語の関係性が確実にあるとは断言できません。

そのため、自立語(動詞、名詞、形容詞、副詞)の形態素１個以上と付属語(自立語以外の品詞)0個以上の連続によって形成される文節を用いることによって、文章中に存在する企業の特徴語を抽出することができます。

例えば、「東証プライム」という言葉があるとすると、形態素解析だと「東証」と「プライム」で分かれてしまいますが、文節解析であれば「東証プライム」＋「付属語」となります。

この文節解析と形態素解析を組み合わせ、文節から不要な付属語の形態素を削除し、かつ不要な文節も選択を行っていくことで企業のテキスト情報から特徴語の抽出をおこなう研究をしてきました。

この分野は奥が深くて地道なものですが、苦しい(楽しい)部分が多いので少しでも興味を持っていただけると嬉しいです！

自分は目標は高く、フルスタックエンジニアかつ、お客様視点、ビジネス視点で考えられ、事業提案ができるように日進月歩で強々エンジニアへの道を歩んでいこうと思います！

まだまだ弱々エンジニアですが、フルスタックエンジニアとして活躍できるよう頑張ります！