【Microsoft AI Tour】GPT4 + ComputerVisionのマルチモーダル
2024-02-22
azblob://2024/02/22/eyecatch/2024-02-22-ms-ai-tour-multimodal-000.png

Microsoft AI Tour への参加 GPT4 + ComputerVisionのマルチモーダル

皆さん、こんにちは! ずっと投稿できていなくて、約10ヶ月ぶりの投稿です...(編集長すみません...) 今回は、2月20日に東京ビッグサイトで開催されたMicrosoft AI Tourに参加してきました。このイベントでは、最先端のAI技術が紹介されており。今回は、学んだことを皆さんと共有したいと思います。

マルチモーダル(Multimodal)

マルチモーダルについて知っていますか?マルチモーダルは、異なる種類のデータ(テキスト、画像、音声など)を組み合わせて、より高度なAIアプリケーションを実現するためのアプローチです。ChatGPTやGeminiもマルチモーダルに裏で動いているようです!Microsoft AI Tourでは、GPT4とComputerVisionを融合させたマルチモーダル技術が紹介されました。

GPT4 + ComputerVisionの融合

最近流行りのGPT4-V(GPT4とComputerVisionの融合技術)は、自然言語処理と画像認識の両方を行うことができる強力なツールです。今回のイベントでは、昔からあるOCR(Optical Character Recognition)技術とGPT4-Vを融合させるマルチモーダルについて取り上げられました。
イベントで学んだことを基に、後日私自身がGPT4-Vを試してみました。FIXERのHPの一部をGPT4-Vに与えて、「画像について教えて」と送ると、GPT4-Vはそれを理解できていないことがわかりました。
2024-02-22-ms-ai-tour-multimodal-001
ただし、この画像をAzure Computer Visionにも送ってあげることで、GPT4-Vは画像の内容をかなり正確に理解することができました。
2024-02-22-ms-ai-tour-multimodal-002
回答を日本語訳すると

この画像は、自らを「クラウド ネイティブ企業」と称する FIXER という名前の会社の Web サイトのスクリーンショットであるようです。ウェブサイトは英語と日本語の両方で表示されます。スクリーンショットの主な焦点は、FIXER に関連する出版物、イベント、メディアに特化したセクションです。画像の右側には、2023 年 10 月 11 日の日付が付いた出版物のお知らせがあり、10 月 12 日に発売予定の「Microsoft Power Bl [実践] 入門」というタイトルの書籍のリリースについて言及しています。 10月13日には「書泉ブックタワー@秋葉原」で記念イベントが開催されることも記されている。この本の著者と監修者、およびその所属がリストされています。追加情報が利用可能であることを示唆する「続きを読む」リンクがあります。このセクションの下には、「プレス リリースとニュース リリース」という見出しがあり、3 つの異なるプレス リリースのロゴと日付が表示されます。記載されている日付は、2024 年 2 月 21 日、2024 年 2 月 13 日、および 2024 年 2 月 9 日です。各プレス リリースには個別のロゴがあり、各発表の異なる内容やテーマを示唆しています。Web サイトの上部には、サイトの「サービス」、「採用」、「会社概要」、「ニュース」、「IR」、「アクセス」、および「連絡先」セクションへのリンクを含むナビゲーション メニューが含まれています。 Web サイトが少なくとも 2 つの言語で表示できることを示す言語切り替えスイッチもあります。提供された OCR テキストから、画像には FIXER のメディアや出版物の発表に関連するさまざまなテキスト要素が含まれていることが明らかです。ただし、画像内で不明瞭なテキストを明確にするのに役立つ場合を除き、OCR テキストで説明を変更してはなりません。Completions 呼び出しは失敗しました。もう一度試してください。

この試行から、GPT4-VとComputerVisionの融合技術がどのように相互補完的に機能し、より高度なAIアプリケーションを実現できることが理解できました。
問題として、日本語で質問した時に、英語で回答されたので、少しプロンプトは工夫が必要そうです。
画像の説明だけでなく、他にも表形式の画像を送ったらjson形式にしたりできたので、いろいろできそうです!

まとめ

Microsoft AI TourでのGPT4-VとComputerVisionの融合技術のセッションは、AI技術の新たな可能性を示してくれました。このような技術の進歩により、今後さらに多くの革新的なアプリケーションが実現されることでしょう。私自身も、このイベントで得た知識を活かして、自分で試してみたり、AI技術の発展に貢献できるように努力していきたいと思います。
※この記事はGaiXerに手伝ってもらいました!!!GaiXerすごい!!!
azblob://2024/03/29/eyecatch/2024-03-29-openai-json-mode-000_0.jpg
2024/03/29
AI/Machine Learning