はじめに
速報です。2022年7月12日にSynapse AnalyticsでMap Dataという機能がGA(一般提供開始)されました。
この記事ではそもそもSynapse Analyticsが何だったっけという話と、Map Dataが何か、それがあると何が嬉しいかを簡単に紹介したいと思います。
そもそもSynapse Analyticsって何だったっけ?
ここはおさらいの気分で本当にさらっといきますが、Synapse Analytics(以下、Synapse)は一言でいうと「大量のデータを高速で収集、調査、視覚化、分析できるサービス」です。
Synapseは「Synapse Studio」というポータルでデータベースとの連携や処理といった操作ができます。ここで「おや、この画面に見覚えがあるぞ?」と思った方がいるかもしれません。
そうです。最近私が本ブログにも投稿したData Factoryのポータルとよく似ているのです。「 Azure Synapse Analytics と Azure Data Factory のデータ統合 | Microsoft Docs 」では以下のように書かれています。
Azure Synapse Analytics の Synapse パイプラインやデータ フローなどのデータ統合機能は、Azure Data Factory の機能に基づいています。
ベースが同じということでした。そのため操作感も非常によく似ており、どちらかを触ったことがある方ならもう片方も同じ感覚で使用できそうです。
ここまで聞くと「じゃあData Factoryとはどう違うの?」と気になる方もいらっしゃるかもしれませんが、今回の本題とは逸れてしまうので割愛します。
(ざっくりいうとData Factoryはデータの処理に強みがあり、Synapseはその分析や可視化機能が売りというイメージ)
また、Data Factoryについて気になった方は是非こちらの記事も併せてご覧ください。
- Azure Data Factoryを触ってみる #Azureリレー | cloud.config Tech Blog
- Azure Data Factoryを触ってみる 〜応用編〜 #Azureリレー | cloud.config Tech Blog
Map Dataって何?どう嬉しい?
本題に入ります。
今回はSynapseでMap Data機能がGAされたという話でした。このMap Dataは、外部のデータソース(現在はAzure Data Lake Storage Gen2とレイク データベースが選択可能)からSynapseの中のレイク データベースにデータを簡単にコピー、マッピングするためのものです。
マッピングとひとえに言ってもいろいろありますが、例えば以下のイメージのように同名カラムはそのまま値をコピーし、カラム名が違う場合には向き先を指定し、場合によっては少し値に処理を施してから該当のカラムに値を入れるといったものが考えられます。
これまではそう言ったマッピングを実装する場合に①データフローを作って②元のデータソースを選択③アクションを一つずつ追加しながら抽出したいカラムの選択、変換、異なるカラム名の対応づけなどを設定し④宛先のデータソースを選択、⑤作ったデータフローを呼ぶパイプラインを作成する、みたいな作業が必要でした(下左図)。
それがMap Dataではデータのマッピング先となるレイク データベースの[データのマップ]からUIに従うだけでかなりスムーズにパイプライン作成までできるようになったのです(下右図)。
まとめ
この紹介を見て「何だ、それだけか」と思うかもしれませんが、地味に嬉しい?いや、多分だいぶ嬉しいアップデートです!上でも少し触れましたが、Synapseはデータ分析を主な目的としているので、大量のカラムを持つデータのマッピング作業がたくさんあるはずです(まだ本格的に使ったことはないけど)。そのような場面で単純だけど手間な作業が減ってみんなハッピーになるということですね。今度私も触ってみようと思います!