本記事はFIXER社内のブログ企画「生成AIブログ駅伝」の1日目です。

皆さんこんにちは！！2024年入社の新屋です！

私たち24卒が4月1日に入社して、今日でちょうど1か月が経過しました。時の流れは非常に早くて恐ろしいですね…

本記事では、GaiXerに搭載されている代表的なLLMの特徴と、同じプロンプトを渡したときにどんな実行結果を出すのかを調査してみます。

興味のある方は、ぜひ最後までお付き合いください。

本記事を書くきっかけ

本記事を書くきっかけを一言で言うと、「生成AIの内部的なことや概念を深く知りたい」です。

皆さん、生成AI使ってますか？？私は今現在進行形でお世話になっています。

生成AIは2022年11月にChatGPTが登場して以来、FIXERがリリースした「GaiXer」、Microsoftがリリースした「Copilot」など、多くのサービスが公開・販売されており、様々な場面で活用されています。

では皆さん、そんな生成AIを扱うにあたり、LLMについて意識したことありますか？

ちなみに私は、正直入社するまでLLMのことについて知りませんでした。（）

ということで、これからGaiXerのような生成AIサービスの開発を行うにあたり、必要な知識を得るチャンスだと思い、

本ブログを執筆しました。

LLＭについて気になるって人は、本記事で一緒に学んでいければと思います。

LLMの定義

まず前提知識として、「LLM」について説明します。

LLM（大規模言語モデル Large Language Model）とは、

「ディープラーニングとニューラルネットワークを用いて作られた、言葉を理解し処理するコンピュータプログラム」です。

ここで、ニューラルネットワークとは、「大量のデータを入力として受け取り、そのデータの中のパターンや関連性を見つけ出して学習できるコンピュータプログラムの一種」

ディープラーニングとは、「ニューラルネットワークを用いてデータからパターンを学び取る先進的な人工知能技術」です。

今回はLLMについて深堀りするので、ニューラルネットワークやディープラーニングの説明は省略します。

以上のことをまとめて簡単に言うと、大量の文章を読んで、その中のパターンや関連性を学習することができる先進的な人工知能技術という感じです。

比較するLLM

今回比較するLLMは以下の５つです。どれも現在GaiXerで使うことができるものを今回ピックアップしています。

・GPT-4 Turbo

OpenAI社が開発した自然言語処理のための人工知能モデル。GPT-3、3.5からさらに性能が向上しており、さらに自然な言語や文章が生成できるようになっている。

また、対応トークン数（読み込めるテキスト数）が従来のGPTよりも約3.9倍（32768→128000）になり、論文などのような長文を適切に処理できるようになった

特徴

・GPT-3、GPT-3.5よりも性能が向上し、より精度の高いテキスト生成ができる。

・長文のプロンプト・ターンに対応できる。

・Claude 3

2023年3月にAnthropic社によって発表されたClaude V2.1に次ぐ次世代の基盤モデル。

「Haiku」、「Sonnet」、「Opus」の3つのモデルファミリーから構成されており、場面に応じてモデルを使い分けることができる。

モデルごとの特徴

Haiku：他のモデルよりも軽量で高速、チャートやグラフ入りの論文を約3秒ほどで読むことができる

Sonnet：バランスに特化、Claude 2.1よりも2倍速く出力を行い、精度も良い

Opus：高知能型、自由形式の質問への解答精度がClaude 2.1の2倍良い、回答速度は従来と同じ

特徴

・写真、チャート、グラフ、技術図など、さまざまなビジュアル形式のデータを処理することができる高度な画像処理技術

・質問が拒絶されにくい（回答が出てくる可能性が上昇）

・より信頼性の高い応答を実現

・入力トークン（AIに与えるテキストや画像などのデータの単位）とコンテキスト（AIが入力トークンを理解するために必要な背景情報）の処理能力の向上

・高いIQ

・Swallow

東京工業大学情報理工学院の岡崎研究室と横田研究室、国立研究開発法人産業技術総合研究所の研究チームで開発された、日本語に特化した大規模言語モデル。

大規模言語モデルLlama 2 (※)をベースに、日本語の文字、語彙を追加するほか、新たに開発した日本語データを用いてモデルの構築を継続的に行う継続事前学習を行うことで日本語能力の拡張を行った。

特徴

・日本語の文字、語彙、文法、言語的ニュアンスなどを深く理解するように設計され、日本語特有の表現や言い回しを自然に生成することができる。

・Llama 2の性能を継承しつつ、日本語能力を拡張するための追加学習が行われている。

・Meta社が公開したLLMと比較して、日本語タスクにおいてより高い性能を持っている。

(※)Llama 2：Meta社が開発した大規模言語モデル。Llamaの改良版でGPT-3.5に匹敵する性能を持っている

・tsuzumi

NTTが開発した大規模言語モデル。言語学習データの質と量の向上により、軽量かつ高性能となっている。

特徴

・世界トップクラスの日本語処理能力を有する

・他のLLMに比べ非常に軽量（パラメータ数が6億~70億）

・業界特有の言語表現や知識に合わせたカスタマイズが容易にできる

こう見ると、画像を読み込めるものや日本語に特化したものなど、LLMごとに特徴があって面白いですね！

LLMの比較方法

実行例を見るにあたり、LLM間で比較を行うため、下記の条件でプロンプトを読み込ませました。

・各LLMに質問するプロンプトは下記の内容とする。

以下の文章を100文字以内で要約した上で、その要約に対する感想を100文字以内で述べてください。
文章:
私は、人工知能が人間の仕事を奪うのではないかと心配する人もいると思います。確かに、AIの発展によって自動化できる仕事は増えるでしょう。しかし、だからこそ人間にしかできない仕事の価値が高まるのです。AIにはない創造性、共感力、倫理観を持って仕事に取り組むことが、これからの時代に求められる人材ではないでしょうか。AIの発展を脅威ではなく、人間の可能性を広げるチャンスととらえることが大切だと私は考えます。私たち人間は、AIとは異なる強みを生かして、これからも社会に貢献していけるはずです。

・リクエスト内で、直前のプロンプト・回答を読み込み学習を行うことを防ぐため、LLMごとに新しいリクエストを作成してプロンプトを投げる。

・ユーザー（私）側でプロンプトを投げる以外の操作は行わない。

この条件をもとに、GPT-4 Turbo、Claude 3 Haiku、Claude 3 Sonnet、Claude 3 Opus、Swallow、tsuzumiが出力するまでの時間、出力結果をもとに比較を行います。

プロンプトの実行結果

それでは実際に各LLMにプロンプトを読み込ませた実行結果を見ていきましょう！！

GPT-4 Turbo

出力までの時間は21秒93で、ほかのLLMに比べて出力までに少し時間がかかったという結果になりました。

一方で、文章量は要約が43文字、感想が41文字と、かなり短くまとめているのか印象的です。また、「刺激的」という言葉を使って感想を述べているのが人間っぽく感じました。

Claude 3 Haiku

Claude 3 Sonnet

Claude 3 Opus

続いてClaude 3の3つのモデルの実行結果です。

出力までの時間は、Haikuが9秒41、Sonnetが13秒05、Opusが37秒34でした。

先ほどのLLM解説でも述べた通りに、出力までの時間が変化したという結果になりました。

文章量に関しては、Haiku > Sonnet > Opusという結果におおよそなっています。

（Haiku 要約：93文字、感想：117文字　Sonnet 要約：96文字、感想：102文字　Opus 要約：83文字、感想：77文字）

また、Opusの実行結果は先ほどのGPT-4 Turboと同じく、断定口調になっています。

短く文をまとめようとするとこのようになるのかもしれません。

Swallow

Swallowに関しては、一回のプロンプトで要約と感想が出なかったので、追加でプロンプトを投げています。

（要約と感想を１つの出力で出せと厳密に定義していなかったので、もしかしたらそれが原因かもしれないです…）

要約が表示されるまでの出力時間は18秒25で、出力までの時間はほかのLLMと同じくらいといった結果になりました。

文字数に関しては要約が183文字という結果になりました。少しオーバーしていますね。

ただ、文章の中身については、要点がまとめられていて読みやすい文章になっています。

tsuzumi

こちらも一回のプロンプトで要約と感想が出なかったので、追加でプロンプトを投げています。

結果としては出力までの時間が7秒89、文字数が86文字でした。

出力までの時間はClaude 3 Haikuよりも短いという結果になりました。日本語に特化していたLLMという点が出力までの時間に影響したのかもしれません。

また、文章量に関してはGPT-4 Turboや Opus並みという結果になりました。思った以上に短く文章がまとめられていたのでびっくりしました。

まとめ

これまでの実行結果をまとめると、

GPT-4 Turbo：実行時間は少し長め、出力内容はプロンプトにかなり沿った結果を返してくれる。

Claude 3 Haiku：実行時間は早い、出力内容もほぼプロンプトに沿った内容になっている。

Claude 3 Sonnet：実行時間と出力内容のバランスが取れている。LLMの中で万能に使える。

Claude 3 Opus：性能重視、出力結果はプロンプトに沿った内容になっている、代わりに実行時間は少し長い。

swallow：実行結果は少し長いが、正確な日本語を出力してくれる。プロンプトを工夫すれば、もっといい出力が得られそう。

tsuzumi：出力時間が短く、文章も短くまとまっている。日本語のプロンプトだったので、どのLLMよりも良い結果が出たのかもしれない。

という結果でした。

LLMごとに挙げられていた特性が顕著に出たので、比較としてはよくできたと思います。

プロンプトをさらに改良すれば、より良いLLM間の比較ができるかもしれないです。