データリネージは、データのライフサイクルのマップです。データがどこで発生し、時間の経過とともにどのように移動、変換され、現在どこに保存されているかを示すものです。これはデータの理解、追跡、検証のための明確な監査証跡となります。
この包括的なビューには、ソースシステム、適用されたすべての変換(計算、集計、フィルタなど)、データが使用される宛先(レポート、ダッシュボード、その他のアプリケーションなど)が含まれます。会社が使用するすべての情報の詳細な家系図のようなものだとお考えください。
データリネージとデータの来歴は、一緒に使用されることが多いですが、データの流れの異なる側面に焦点を当てています。
つまり、リネージは、時間の経過に伴う、さまざまなシステムにわたるデータの進化全体を示すのに対し、来歴は多くの場合、特定のデータ要素のソースと信頼性に焦点を当てます。
データリネージのキャプチャは、以前はほとんどが手動の面倒なプロセスでしたが、最新のクラウド ソリューションにより高度に自動化されています。基本的なコンセプトは、インフラストラクチャ全体でデータがどのように移動し、変更されたかを監視し、視覚的で追跡可能な記録を作成することです。
最新のデータ プラットフォームは、解析やモニタリングなどの手法を使用して、データフローを自動的に検出してマッピングします。
ここでは、データリネージ API が重要なテクノロジーとなります。さまざまなシステムやツールが、これを使用してデータの使用状況を中央カタログに報告します。たとえば、データ統合ツールは、この API を使用して、中央システムに「テーブル A からテーブル B にデータを移動し、集計を実行しました」と通知します。これにより、手動操作なしで、データの移動をほぼリアルタイムで正確に記録できます。
自動キャプチャが理想ではありますが、組織のレガシー システムやカスタム システムでは、すべてを網羅できない場合があります。その場合は、手動でのメタデータのタグ付けやカスタム レポートの作成に頼らざるを得ません。これには、対象分野の専門家がデータフローを文書化し、それらを中央カタログ内で関連付ける作業を伴います。効率は低下しますが、エンドツーエンドのビューを完成させる必要がある場合もあります。
リネージ情報は、キャプチャされると、可視化ツール(多くの場合、ウェブ インターフェース)を通じてユーザーに表示されます。このツールは、複雑なメタデータを取得し、それを読みやすくインタラクティブなグラフや図に変換します。ユーザーはレポートやテーブル上をクリックして、上流のソースから下流の利用者まですべてのフローチャートを即座に確認できます。これにより、マップ上の線に沿ってデータの流れを簡単に把握できます。
優れたデータリネージ マップがあれば、あらゆるデータアセットについて「誰が、いつ、どこで、何を、なぜ」という疑問にすばやく答えることができます。追跡される重要なコンポーネントは次のとおりです。
データリネージは単なる技術的な取り組みではありません。これを利用して、組織はデータの管理方法や信頼性を高める方法を改善することで、実際のビジネス価値を生み出すことができます。
データ ガバナンスとコンプライアンスの向上
データリネージは、組織が機密レポートを作成する際にどのデータソースが使用されたかを正確に証明するのに役立ちます。これは、GDPR、CCPA、HIPAA などの規制遵守のために求められることがよくあります。
データ品質の問題の根本原因分析を迅速化
リネージにより、技術チームは誤ったデータポイントを、複数の変換処理やシステムを遡って、エラーが混入した正確なソースまで迅速にトレースできます。
システム変更のインパクト分析の強化
データリネージにより、インパクト分析を即座に実行できます。提案された変更から前方にトレースすることで、チームはそのデータに依存するすべてのレポート、ダッシュボード、アプリケーションを確認できます。これにより、変更によって障害が発生する前に、リスクを評価してデータ利用者に通知できます。
データアセットの信頼性が向上
ユーザーが使用しているデータの出所と変換手順を簡単に確認できると、そのデータに対する信頼性が大幅に高まります。これにより、基盤となる情報の品質や信頼性に疑問を抱くことがなくなるため、データドリブンな意思決定が可能になります。
データから AI へのリネージ
データリネージは、AI モデルの根本原因分析にも役立ちます。デプロイされたモデルがドリフトを示したり(パフォーマンスの低下)、バイアスのかかった予測を生成したりするようになった場合、データ サイエンティストはリネージを使用して、ソースまで迅速に遡って追跡できます。
データリネージは、データ開発ライフサイクルのさまざまな段階で、必要に応じてさまざまな詳細レベルで追跡できます。
設計時リネージは、開発環境やテスト環境で設計、構成されたデータフローをキャプチャします。これは、スキーマ、スクリプト、ETL ジョブ構成といったデータ パイプラインのブループリントの読み取りに基づいており、データに対して何を行うべきかを示します。
実行時リネージは、本番環境で実際に発生したデータフローをキャプチャします。実行されたジョブとプロセスの具体的な入力と出力を記録します。これは予期しない動作やエラーなど、データに何が起こったかを伝えるものです。実行時リネージは現実を反映しているため、データ ガバナンスでは、こちらの方がより価値があるとみなされます。
キャプチャされる詳細のレベルは、粒度と呼ばれます。組織は、データ ガバナンスのニーズと環境の技術的な複雑さに基づいて粒度を選択します。