AWS Summit Japan 2024 in 幕張 に現地参加してみた!
2024-06-21
azblob://2024/06/24/eyecatch/2024-06-21-aws-summit-000.jpg

1. AWS Summit とは?

毎年 延べ 30,000 人が参加する、日本最大の "AWS を学ぶイベント"で、今年2024年は AWS Summit Japan が 6月20日(木)、21日(金)の2日間に渡り開催されました。AWS Summit は、クラウドコンピューティングコミュニティが一堂に集まり、アマゾン ウェブ サービス (AWS) に関して学習し、ベストプラクティスの共有や情報交換ができる場所です。私は、20日に現地参加しました。

会場の様子↓

上の写真は夕方の終了間際なので人が少ないですが、日中は地面が見えないほど人で埋め尽くされていました。人の多さに少し驚きました。

2. 講演内容

セッション1: Amazon Neptune Analytics と生成 AI 活用

Amazon Neptuneはスケーラビリティと可用性に優れたフルマネージドのグラフデータベースサービスです。このセッションでは、AWS re:Invent 2023で発表された新しいグラフ分析エンジン「Amazon Neptune Analytics」について詳しく解説されました。さらに、生成AIとAmazon Neptune Analyticsを組み合わせたソリューションについても紹介され、データの有効活用方法が具体的に示されました。

セッション2: AWS IoT SiteWise を活用したスマート工場の実現

スマート工場の実現に向けたデータ収集のパターンについて整理し、AWS IoT SiteWiseの多くの新機能にフォーカスを当てたセッションです。AWS re:Invent 2023での機能追加に基づき、具体的な活用方法が紹介されました。また、IoTワークロードにおける生成AIの活用例も取り上げられ、工場の効率化と進化の可能性が示されました。

セッション3: 次世代自動運転のための LLM 開発:大規模モデル学習とエッジデバイス環境の実現

最先端の自動運転開発に焦点を当てたこのセッションでは、自動運転EV開発会社チューリング様からAWSのリソースを駆使して構築された大規模マルチモーダルモデル「Heron」の開発プロセスが紹介されました。最新のGPUを利用したp5インスタンスを活用したモデル学習や、車載半導体開発に向けたAWS EC2 F1インスタンスのクラウドFPGA環境での運用方法が解説されました。また、LLM開発支援プログラムと車載環境での技術的課題の克服事例が共有されました。

セッション4: ハルシネーションを抑制した生成 AI が生み出す顧客事例とそのアーキテクチャ解説

このセッションでは、ストックマーク様が「AWS LLM 開発支援プログラム」の採択を受けて開発した独自のLLMについて紹介されました。日本語と最新の時事話題に強く、高速・高精度なビジネス用途に信頼できるLLMを自社プロダクト「Aseries」に導入し、そのアーキテクチャが解説されました。さらに、新規用途探索の高精度・高速化を目的とした実証実験など、具体的な顧客ユースケースも紹介され、生成AIの実際のビジネスでの活用可能性が強調されました。

その中でも、特にセッション3で興味を持ったマルチモーダルLLMについて次のセクションで深堀りします。
 

3. マルチモーダルLLM

そもそも、マルチモーダルとはどういう意味なのかについて説明します。マルチモーダルとは、AIが異なる種類のデータや情報源を組み合わせて理解し、処理する技術やアプローチのことです。反対にシングルモーダルは一つの情報源しか理解することができないので、例えば声からは文字変換しかできない、またはテキストからは要約・翻訳しかできないといった単一の処理しか行えません。しかしマルチモーダルだと、画像や動画、声、テキストなど様々な要素を包括的に理解、学習できるので、人間が物事を理解するのと同じよに直感的な情報出力が行えます。

ここまで分かったうえで、まずセッション3のメインテーマである、チューリング様が開発したマルチモーダルLLM「Heron」について紹介します。

「Heron」は、画像認識モデルと大規模言語モデルを接続する学習ライブラリです。日本語を含む多言語対応で、対話形式のデータセットを用いた学習により、自然で適切な対話が可能となっています。700億パラメータのモデル群を公開しており、完全自動運転の実現に向けた高度な文脈理解を目指しているということです。また、学習用ライブラリは柔軟性が高く、商用利用も可能となっているそうです。

「Heron」のようなマルチモーダルLLMはテキストだけでなく画像や音声など複数のデータ形式を処理できるため、ユーザー体験が向上し、多岐にわたる応用が可能となります。例えば、画像認識とテキスト生成を組み合わせた診断ツールや、音声入力を活用した対話型アシスタントなどがあげられます。その一方で、複数のデータ形式を扱うため、モデルの開発・トレーニングが複雑化し、計算資源やデータ収集のコストが増加します。また、異なるモーダル間でのデータの一貫性や精度を保つことが課題となります。

4. 今後の発展

マルチモーダルLLMの開発は今後ますます進み、人間の生活に浸透してくると思います。

例えば、先ほど紹介した「Heron」のような画像認識と融合させたLLMでは、業界共通の業務において、ドキュメントの自動分類と検索や会議の議事録、カスタマーサポートなどに応用できると考えられます。

それぞれどういうことかというと、"ドキュメントの自動分類と検索"ではスキャンした書類や画像データを自動的に分類し、適切なフォルダに整理することができると考えられます。また、"会議の議事録"では、会議中に表示されたスライドやホワイトボードの内容をリアルタイムで認識して議事録を自動生成することが可能となるしょう。最後に"カスタマーサポート"では、画像付きの問い合わせメールも理解できるようになるので、サポートの幅も広がり、一つの問い合わせに関する対応時間も短縮されると考えられます。

このように、今以上に利用者が増え、効率的に仕事ができるようになると思います。

また、プロンプトの観点からいうと、人間の五感と同じようにいろいろな情報を総合的に学習するマルチモーダルLLMでは、安定した品質が担保されているプロンプトを書くことが難しくなってくると感じました。しかし、プロンプトは日々最新の研究がされている分野であり、これからもたくさんの構文が生み出されると思うので、日常的に情報収集を欠かさず、ビックウェーブに乗り遅れることがないようにすることが大切だと思いました。

5. まとめ

今回は、AWS Summit Japanで聞いた講演の中から興味を持った話題を紹介しました。

マルチモーダルという言葉は知っていしましたが、ついにLLMにも応用されはじめているんですね。

これからも目が離せない分野です。