Azure Purview で データガバナンス #Azureリレー
2020-12-09
azblob://2022/11/11/eyecatch/2020-12-09-relay-azure-purview-000-1.jpg

毎週水曜日のAzureリレーの記事になります。

Microsoftが12月3日に開催したオンラインイベント「Shape Your Future with Azure Data and Analytics」でプレビュー版として公開したデータガバナンスサービス「Azure Purview」を紹介します。Azure Purviewとは、Azure上にあるデータやオンプレミスにあるデータをスキャンし、データカタログを自動的に作ってくれるサービスです。また、データカタログに登録されたデータがセンシティブなデータの場合に自動的に分類してくれたりします。

どのように利用するのか?

それではさっそく、どんなことができるのか動かして確認してみましょう。
Azure Purview AccountsをAzure Portalで作成すると、Purview Studioのサイトが利用できるようになります。

このサイトで、分析元になるデータソースを登録し、スキャンすることでデータカタログが作成されます。今回はBlob、SQL Database、DataExploreを利用して接続してみました。

まずはじめに「email」でデータカタログを検索してみましょう。
以下が検索結果になります。既に時点に登録されているデータカタログからSQL DBのテーブルが表示されました。左側には対象のアセットタイプや自動分類された一覧も表示されています。

次に「Customer」テーブルを選択すると、概要やスキーマ、どこにデーアがあるのかを知れたり、データを管理しているのは誰なのか、このデータについて詳しく知るためには誰に聞けばいいのかが分かるコンタクト先を登録して管理することができます。

では、タブのスキーマを選択すると、対象のデーブルのカラムの詳細の情報が確認できます。また、自動的にセンシティブなデータである、Eメールアドレスや名前、電話番号は分類され可視化されます。先程検索したのはこちらに表示されている「EmailAddress」のカラムにヒットして一覧に表示されていたのが分かりますね。

また、タブのRelatedを選択すると、SQL Server名やSQL Database名の階層構造や他のテーブルへのリンクが表示されます。

このように、どのようなデータがどこにあるのか。検索して簡単に参照することができます。実際のデータに触れているわけではないので壊してしまう心配もなく、安心してデータを探すことが可能です。分析も自動的に行われるため便利です。

データソースはどのように登録するの?

データカタログを見れるようにするためには、データソースとしてリソースを登録して、スキャンする必要があります。まず、データソースとして利用するサービスの登録方法から見てみましょう。
Purview Studio のデータソースのページから、Registerを選択して登録していきます。

対象リソースはPurviewを作成した同一サブスクリプション内ならセレクトボックスから、サブスクリプション外ならエンドポイントを登録することで選択します。以下はblobを選択した例になります。

こちらは手動で登録する場合の画面です。

これでリソースの登録は完了です。

リソースを登録したら次はデータのスキャンを行います。ここで認証情報として何を利用するのかを選択します。また、画面は用意できていませんが、スキャンは定期的に行うのか、1度だけ行うのかの選択が可能です。

各リソースへ接続するための認証情報は、Purview AccountのマネージドIDかKey Vaultに登録したシークレット(キーやサービスプリンシパル)を利用します。ただ、事前にPurview AccountのマネージドIDは、対象リソースか、Key Vaultのアクセス制御に登録しておいてください。マネージドIDは、ソースのスキャンからみるか、Azure PortalのPurview Accountのポータルのプロパティーから参照できます。

最後に、Insightsを見ていきましょう。ここではどのようなデータが登録されているのか概要を把握できたりスキャンの成功失敗、分類したセンシティブなデータがどの程度あるのかなど確認できます。

ここでは、名前やメール、電話番号が入っているカラムがあるよと分類結果を表示してくれています。
別ページで分類から対象テーブルを絞り込むような検索も可能です。

どんなサービスやデータが接続できるの?

現時点で利用できるサービスは以下の通りになります。

Azure Blob Storage
Azure Cosmos DB(SQL API)
Azrue Data Explorer(kusto)
Azure Data Lake Storage Gen1
Azure Data Lake Storege Gen2
Azure SQL Database
Azure SQL Database Managed Instance
Azure Synapse Analytics(formerly SQL DW)
Power BI
SQL Server

データ形式は以下の通りです。

CSV, JSON, PSV, SSV, TSV, TXT, XML, PARQUET, AVRO, ORC, DOC, DOCM, DOCX, DOT, ODP, ODS, ODT, PDF, POT, PPS, PPSX, PPT, PPTM, PPTX, XLC, XLS, XLSB, XLSM, XLSX, XLT

まとめ

Azure purview のご紹介をしてきました。

何をつくるにもデータから始まりますのでデータが手元で俯瞰して見れることはとても便利だと思います。データの登録やスキャンも設定しやすく、認証情報もしっかり保護されているので安心して利用できるのではないでしょうか。

データ分析をされる方には、元データを調べるときや自分で分析した結果を共有するときにいいのではないでしょうか、システムをマネージしていく観点では、どこにどのようなデータがあり、個人情報にあり注意を払う必要があるのか可視化されるのは重宝しますね。

今回紹介しませんでしたが、データ辞書も作り込むことができるのでデータを育てていければどんどん仕事は捗るのではないでしょうか。ぜひ、さわってみてください!