データリネージとは何ですか?

データリネージは、ビジネス情報の GPS のようなものです。情報の完全な流れをグラフ化し、情報の出所、移動先、その過程で行ったすべての手順を示します。この過程を追跡することで、組織ではデータに対する信頼性を高めて、重要な意思決定に使用できるようになります。

データリネージの定義

データリネージは、データのライフサイクルのマップです。データがどこで発生し、時間の経過とともにどのように移動、変換され、現在どこに保存されているかを示すものです。これはデータの理解、追跡、検証のための明確な監査証跡となります。

この包括的なビューには、ソースシステム、適用されたすべての変換(計算、集計、フィルタなど)、データが使用される宛先(レポート、ダッシュボード、その他のアプリケーションなど)が含まれます。会社が使用するすべての情報の詳細な家系図のようなものだとお考えください。

データリネージとデータの来歴

データリネージとデータの来歴は、一緒に使用されることが多いですが、データの流れの異なる側面に焦点を当てています。

  • データリネージは、マクロ、履歴、戦略的な観点からデータの流れを把握します。データアセットの現在の状態に至るまでの完全なパスと変換ロジックに焦点を当てます。これはマップ全体です。
  • データの来歴はより細かく具体的で、多くの場合、特定の時点における特定のデータポイントまたはレコードの直接的なソースと所有権に焦点を当てます。データの出所を認証するために使用されることがよくあります。

つまり、リネージは、時間の経過に伴う、さまざまなシステムにわたるデータの進化全体を示すのに対し、来歴は多くの場合、特定のデータ要素のソースと信頼性に焦点を当てます。

データリネージの仕組み

データリネージのキャプチャは、以前はほとんどが手動の面倒なプロセスでしたが、最新のクラウド ソリューションにより高度に自動化されています。基本的なコンセプトは、インフラストラクチャ全体でデータがどのように移動し、変更されたかを監視し、視覚的で追跡可能な記録を作成することです。

最新のデータ プラットフォームは、解析やモニタリングなどの手法を使用して、データフローを自動的に検出してマッピングします。

  • 解析: プラットフォームは、SQL などの言語で記述された変換ロジックを読み取って理解できます。BigQuery ジョブなどでクエリを読み取ることで、システムは、新しい派生テーブルの作成に使用されたソーステーブルと列を確認できます。
  • モニタリング: プラットフォームは、データ ウェアハウスからデータレイクやストリーミング パイプラインへなど、さまざまなサービス間でのデータの移動を監視します。

ここでは、データリネージ API が重要なテクノロジーとなります。さまざまなシステムやツールが、これを使用してデータの使用状況を中央カタログに報告します。たとえば、データ統合ツールは、この API を使用して、中央システムに「テーブル A からテーブル B にデータを移動し、集計を実行しました」と通知します。これにより、手動操作なしで、データの移動をほぼリアルタイムで正確に記録できます。

自動キャプチャが理想ではありますが、組織のレガシー システムやカスタム システムでは、すべてを網羅できない場合があります。その場合は、手動でのメタデータのタグ付けやカスタム レポートの作成に頼らざるを得ません。これには、対象分野の専門家がデータフローを文書化し、それらを中央カタログ内で関連付ける作業を伴います。効率は低下しますが、エンドツーエンドのビューを完成させる必要がある場合もあります。

リネージ情報は、キャプチャされると、可視化ツール(多くの場合、ウェブ インターフェース)を通じてユーザーに表示されます。このツールは、複雑なメタデータを取得し、それを読みやすくインタラクティブなグラフや図に変換します。ユーザーはレポートやテーブル上をクリックして、上流のソースから下流の利用者まですべてのフローチャートを即座に確認できます。これにより、マップ上の線に沿ってデータの流れを簡単に把握できます。

データリネージ マップの主要コンポーネント

優れたデータリネージ マップがあれば、あらゆるデータアセットについて「誰が、いつ、どこで、何を、なぜ」という疑問にすばやく答えることができます。追跡される重要なコンポーネントは次のとおりです。

  • ソース: トランザクション データベース、ファイル、外部システムなど、データの発生元
  • 変換ロジック: データに適用される特定のオペレーションまたはビジネスルール。これには、SQL クエリ、Python スクリプト、ETL(抽出、変換、読み込み)ジョブのロジックなどがあります。
  • パス / フロー: データが移動するシステム、プロセス、データストアのシーケンス
  • 時間 / バージョン: データが処理された時間と、使用されたデータまたは変換ロジックのバージョン
  • 宛先 / 利用者: データの最終的な保存場所と、規制レポートやマシンなど、データを使用した人またはもの

データリネージのメリット

データリネージは単なる技術的な取り組みではありません。これを利用して、組織はデータの管理方法や信頼性を高める方法を改善することで、実際のビジネス価値を生み出すことができます。

データ ガバナンスとコンプライアンスの向上

データリネージは、組織が機密レポートを作成する際にどのデータソースが使用されたかを正確に証明するのに役立ちます。これは、GDPR、CCPA、HIPAA などの規制遵守のために求められることがよくあります。

データ品質の問題の根本原因分析を迅速化

リネージにより、技術チームは誤ったデータポイントを、複数の変換処理やシステムを遡って、エラーが混入した正確なソースまで迅速にトレースできます。

システム変更のインパクト分析の強化

データリネージにより、インパクト分析を即座に実行できます。提案された変更から前方にトレースすることで、チームはそのデータに依存するすべてのレポート、ダッシュボード、アプリケーションを確認できます。これにより、変更によって障害が発生する前に、リスクを評価してデータ利用者に通知できます。

データアセットの信頼性が向上

ユーザーが使用しているデータの出所と変換手順を簡単に確認できると、そのデータに対する信頼性が大幅に高まります。これにより、基盤となる情報の品質や信頼性に疑問を抱くことがなくなるため、データドリブンな意思決定が可能になります。

データから AI へのリネージ

データリネージは、AI モデルの根本原因分析にも役立ちます。デプロイされたモデルがドリフトを示したり(パフォーマンスの低下)、バイアスのかかった予測を生成したりするようになった場合、データ サイエンティストはリネージを使用して、ソースまで迅速に遡って追跡できます。

データリネージの一般的な種類

データリネージは、データ開発ライフサイクルのさまざまな段階で、必要に応じてさまざまな詳細レベルで追跡できます。

設計時リネージ

設計時リネージは、開発環境やテスト環境で設計、構成されたデータフローをキャプチャします。これは、スキーマ、スクリプト、ETL ジョブ構成といったデータ パイプラインのブループリントの読み取りに基づいており、データに対して何を行うべきかを示します。

ランタイム リネージ

実行時リネージは、本番環境で実際に発生したデータフローをキャプチャします。実行されたジョブとプロセスの具体的な入力と出力を記録します。これは予期しない動作やエラーなど、データに何が起こったかを伝えるものです。実行時リネージは現実を反映しているため、データ ガバナンスでは、こちらの方がより価値があるとみなされます。

リネージの粒度

キャプチャされる詳細のレベルは、粒度と呼ばれます。組織は、データ ガバナンスのニーズと環境の技術的な複雑さに基づいて粒度を選択します。

  • テーブルレベル: テーブルまたはデータセット全体でのデータの流れを追跡します。たとえば、「顧客テーブル A」から「販売レポート テーブル B」への流れを示します。
  • 例: raw_transactions テーブル全体が daily_aggregations テーブルに読み込まれたことを示します
  • 列レベル: ソース列からターゲット列へのデータの流れを、適用された変換を含めて追跡します。これは、コンプライアンスのために必要になることがよくあります。
  • 例: ソース データベースの customer_id 列がデータ ウェアハウスで user_key に名前が変更され、これを結合の一部として使用して final_report が作成されたことを追跡します。
  • レポートレベル: どのレポート、ダッシュボード、アプリケーションが、どのテーブルと列を使用しているかを追跡します。これは、インパクト分析とビジネス ユーザーの信頼に不可欠です。
  • 例: ビジネス アナリストは、経営幹部向けセールス ダッシュボードの指標を、その計算に使用された特定の列とテーブルまで遡って確認できます
  • エンドツーエンド: 初期のソース アプリケーション(CRM など)から、すべてのステージング、クリーニング、変換ステップを経て、最終的なレポートや ML モデルまで、すべてのシステムにわたる包括的なビューを示します。
  • 例: ウェブアプリのデータベースに記録された最初の登録時から、チャーン予測モデルの出力に利用状況が要約されるまでの 1 人の顧客の行動を追跡します

Google Cloud でビジネスの課題を解決する

新規のお客様には、Google Cloud で使用できる無料クレジット $300 分を差し上げます。

次のステップ

$300 分の無料クレジットと 20 以上の Always Free プロダクトを活用して、Google Cloud で構築を開始しましょう。

  • Google Cloud プロダクト
  • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
Google Cloud