Tech Summit 2018: ビッグデータソリューション構築のための適切な技術選択とは?
2018-12-23
azblob://2022/11/11/eyecatch/2018-12-23-tech-summit-da52-001-1.jpg

こんにちは。Cloud Solutions Engineerの花野です。

前回の投稿に引き続いて、Tech Summit2018の参加セッションのご紹介をさせていただきます。

DA52 ビッグデータソリューション構築のための適切な技術選択とは?

DSC_0287

こちらは「セッション」ではなく、「チョークトーク」でした。チョークトークとは講義形式で進む通常のセッションとは異なり、演者と聴衆がインタラクティブにディスカッションをしながら進む形式の一コマです。会場の設えも工夫されており、演者の方と参加者との距離が近くて新鮮でした。

開始時間ギリギリに行ったらほぼ満席で、なんとか端っこに潜り込ませてもらいました。

そんな大人気のチョークトークのテーマは、「ビックデータのソリューションを構築するにあたってのベストプラクティスやアンチパターンを議論しよう!」というものでした。

現在、ビッグデータを活用するソリューションをAzureで構築しようとすると、Microsoft製品だけではなく、オープンソースのソフトウェアも利用できるようになっています。利用者としては選択肢が広がって便利ですが、その反面、数々のテクノロジを理解して適切に使いこなすことが求められ、敷居が高くなっているとも言えます。

そんな状況をサポートするためにMicrosoftからはビックデータのアーキテクチャガイドが提示されていますが、そうは言っても現場では当てはまらない場合も出てくるわけで。そんなノウハウをシナリオに応じて会場のみんなで議論できれば、ということでした。

まずは最初のテーマとして、以下のようなスライドが表示されました。

ひとくちにデータと言っても、現在のシステムで扱うデータの形式は構造化データ、非構造データ、バイナリ、動画などなど、多様になってきています。そんな多様なデータを適したところに入れて行くという概念が「Polyglot Persistence」ということです。

それをふまえて「ECサイトを構築する際に、それぞれのデータはどの形式で格納するのがよいでしょうか」という問題でした。

DSC_0294

シンキングタイムスタート。静まりかえる会場。通常のTechSummitセッションではずっと演者の方の声が響いているのに比べると、異様な雰囲気です。

私も「全部RDBMSで……だと問題にならないから、ええとクラスター分析は分析って名前がついてるしHDFSかなあ」なんてもごもごと考えてみます。

しばらくして演者の方が、誰か案はありませんか、と促します。正解はないので、と。さらに静まりかえる会場。

ここで率先して何か言えればよかったのですが、正直そんなに詳しくない自覚がありますし、下手に発言すると「なんであんなこと言っちゃったんだろ」と後悔がぐるぐるしてその後の話に身が入らない予感がしたため、ここは聞く係になると決めて潜伏させてもらうことにします。

緊張感溢れる時間が流れた後、やっと一名の方が発言されます。素晴らしい。

その方が選択されたのがこちら。やはりRDBMSが多めです。

DSC_0295

それに対し、一つの例として演者の方々から示されたのがこちら。

商品履歴はJSONでドキュメントデータベースに入れる、購入履歴はレコメンデーション機能を実現するためにグラフデータベースに入れる、など。

DSC_0296

引き続き、議論は「SQLに適するものと適さないもの」という視点で進みます。

少しだけ会場が温まってきて、ちらほらと声が上がります。SQLはトランザクションが必要なもの、とか、NoSQLはIoT、とか。ひとしきり意見が出揃ったところでまとまったものが出されます。なんとなく認識はしていましたが、こうやって言語化されるとすっきりしますね。

DSC_0297

そこからデータレイクの紹介があり、最後は「過去のデータとお天気情報をもとに航空機の遅延予測をするシステムを作るには」というテーマとなりました。

これもまた参加者の方々からぽつぽつとあがる声を元にその場で構成が書き起こされ、最後は回答例が提示されました。

DSC_0307
DSC_0308

普段はWebや書籍なんかで完成したアーキテクチャ例を見て「まあ、そういうことだろうな」なんて思っているのですが、いざ真っ白な所から描いてみるとなかなか難しく、できあがった時に達成感があることが分かりました。

よく考えてみると実際の案件でも同じことが起こります。お手本として示されるアーキテクチャはあるのですが、それがそのまま案件に使えるわけではなく、要件に応じて選択して行くという過程が必ず発生しますし、そこが我々ベンダの腕の見せ所だと感じました。

それにしても、チョークトークは初めて出たのですが、なかなか難しいですね。せっかくのチョークトークという形式を最大限に活かすには自分もそのテーマについて一言あり、演者や他の聴講者と積極的にディスカッションするくらいの準備があってこそだと感じました。

まとめると

  • Azureでビックデータを活用するソリューションを構築するには、色々なテクノロジを選べるからこそ恩恵も悩みも多い
  • ビックデータのアーキテクチャガイドが提示されているが、実際はシナリオに応じてうまく選択する過程が発生する
  • チョークトークは準備して参加するともっと楽しい

でした。