Azure Data Factory の主要な構成要素を整理してみた | cloud.config Tech Blog

はじめに

データ利活用の重要性の高まりに伴って、複数のデータソースを参照して、データの統合や分析・可視化を行うデータパイプラインの構築が重要視されています。

これを実現するためのソリューションとして、Azure Data Factory が挙げられます。

本記事では、Azure Data Factory の基本的な概念と構成要素について整理し、Azure Data Factory の理解を深めることを目的とします。

Azure Data Factory (ADF) は、Microsoft Azure が提供するクラウドベースのマネージドなデータ統合サービスです。

Azure Data Factory はこの Orchestration を担当し、複数のデータソースからデータを取得し、必要に応じて外部のコンピューティングサービスを使用してデータを変換・加工した上で、目的のデータストアに格納する ETL/ELT パイプラインを構築できます。

これを図示すると下記のようになります。

データパイプラインの構築手法として、ETL と ELT という2つのアプローチがあります。

E、T、Lはそれぞれ、Extract、Transform、Load の頭文字を表しており、下記のような意味を持ちます。

これらの処理を組み合わせた処理の流れは、以下のようになります。

ETL/ELT の詳細については「抽出、変換、読み込み (ETL) | Azure Architecture Center」をご参照ください。

Azure Data Factory は、いくつかの主要なコンポーネントで構成されています。

上図のように、Azure Data Factory はこれらを組み合わせることで柔軟なデータパイプラインを構築できます。

※ Pipeline から Data transformation activities のデータフローを呼び出す場合は、別途 IR を必要としますが、簡略化のため図示していません。

以降では、各コンポーネントについて詳しく解説していきます。

パイプラインは、データ処理タスクを論理的にグループ化した単位です。
1つ以上のアクティビティで構成され、ETL/ELT の一連の処理フローを定義します。

例えば、ETL の「データを取得 → 変換 → 格納」という一連の処理を1つのパイプラインとして定義できます。

図中では、「Pipeline」と表記されています。

トリガーは、パイプラインの実行タイミングを制御します。
図中では、Pipeline 内の「Trigger」として表現されており、以下の種類のトリガーが提供されています。

パラメータは、読み取り専用のキーと値のペアとして定義され、パイプラインに動的な値を渡すための仕組みです。
同じパイプラインを異なる設定値で実行できるため、再利用性が向上します。

図中では、「Parameters」と表記されており、この値はアクティビティから参照することが可能です。

例えば、以下のようなユースケースがあります。

アクティビティは、パイプライン内で実行される個々の処理単位です。
図の「Activity 1」「Activity 2」「Activity 3」のように、パイプライン内に複数配置できます。

Azure Data Factory では、以下の3種類のアクティビティが提供されています。

Data movement activities（データ移動アクティビティ）：Copy Activity など、データソース間でのデータコピー
Data transformation activities（データ変換アクティビティ）：Data Flow、Databricks、HDInsight などを使用したデータ変換
Control activities（制御アクティビティ）：条件分岐、ループ、待機などのパイプライン制御