Dataplex データリネージを使ったデータの理解と信頼性の確保
Google Cloud Japan Team
※この投稿は米国時間 2023 年 3 月 14 日に、Google Cloud blog に投稿されたものの抄訳です。
このたび、Dataplex データリネージの一般提供が開始されたことをお知らせいたします。データリネージとは、フルマネージド型サービスである Dataplex の機能で、これを利用することにより、組織内のデータがどこから取得され、どのように変換されたかを把握できます。Dataplex データリネージでは、BigQuery、BigLake、Cloud Data Fusion(プレビュー版)、Cloud Composer(プレビュー版)におけるデータの移動が自動的に追跡されるので、リネージに関するメタデータを手作業でキュレーションする運用上の手間を省くことができます。
さまざまなデータサイロに多くのデータが分散して保管されるようになると、ユーザーがセルフサービスでデータを発見、理解し、信頼性を確認することが難しくなります。組織は常に以下のような疑問に悩まされています。
データは信頼できるソースから抽出されたものか。
特定のテーブルを削除した場合、どのような影響があるか。
特定のテーブルのデータが破損していると思われるが、このデータはどこから取得されたもので、最後にいつ更新されたか。
機密情報はどのように移動またはコピーされているか。データ ガバナンスのプラクティスに沿って行われているか。
このような疑問を解決するには、データがどのように取得され、変換されているかを追跡できることが必要です。しかし追跡作業は複雑で、多くの手間がかかります。
Dataplex データリネージは、データにどのような処理が行われたか、そしてその処理がいつ行われたかをインタラクティブなリネージグラフとして詳細に示し、それぞれのリネージの関係性を示すことでデータのオブザーバビリティを実現します。
データ アナリストが、あるテーブルが信頼できるソースから取得されたものであるかを判断したいとします。その場合、Dataplex および BigQuery(コンテキスト内の分析)を使用して、接続されたテーブルのリネージをセルフサービスで簡単に参照し、この疑問に答えることができます。
データ エンジニアは、リネージの関係性を示す運用メタデータの追跡を使用した根本原因分析を通じて、データに関する問題を短時間で特定し、解決できます。また、データリネージを使用すれば、変更の影響を評価し、対応するステークホルダーと連携して悪影響を最小限に抑えることができるので、確度の高い変更管理も実現できます。
そして、データリネージではデータの移動に関するマップが提供されるので、データ ガバナンスの実践の基盤とすることができます。これにより、データ管理担当者およびデータオーナーは、特に機密情報の移動を追跡する場合に、ガバナンス要件への適合を評価し、確実にガバナンスを効かせることができます。
Dataplex データリネージには API が用意されているので、この API を使用して拡張を行い、さまざまなシステムからのリネージをレポートし、データエントリの関係性を 1 つのマップとして表現できます。
お客様の声
L’Oréal は世界最大級の化粧品会社で、「世界をつき動かすような美の創造」をミッションとして掲げています。L’Oréal でデータ エンジニアリング チームのリーダーを務める Sébastien Morand 氏は、次のように述べています。「Dataplex データリネージにより、組織内でのデータの移動を簡単に把握できるようになりました。このフルマネージド型のソリューションを使用すると、実行に関するメタデータの参照を含め、何がいつ発生したかについてのインサイトを獲得できるので、データの問題を診断し、変更やインシデントの影響を評価する場合には、真っ先に利用しています。当社の Beauty Tech Data Platform と直接統合されたデータリネージにより、データの問題の発生を減らすとともに、問題が発生した場合でも短時間で影響の緩和策を実施できるようになりました」。
Wayfair のデータ インフラストラクチャおよびデータ イネーブルメント担当アソシエイト ディレクター Vinit Rajopadhye 氏は、次のように話します。「Wayfair は、データをプロダクトとして扱い、セルフサービスでのアクセスとコンプライアンス確保のための各種の要素を提供する堅牢なデータ プラットフォームを構築しています」「社内でデータを利用するユーザーは、Dataplex データリネージで、データがどこから取得され、どのように変換されたものであるかを確認できるため、データを信頼して活用できるようになりました」。
Hurb は、ブラジルのオンライン旅行代理店で、テクノロジーにより顧客に快適な旅を提供することをミッションとしています。シニア データ エンジニアの Vinícius dos Santos Mello 氏はこのように述べています。「Hurb では、データ プラットフォームの規模が急速に拡大しており、ビジネス上の意思決定や ML モデルをサポートするために日々新たなデータアセットが作成され、登録されています。Dataplex データリネージ機能を使用することで、BigQuery のデータ全体に対してエンドツーエンドのデータ オブザーバビリティを実現することができました。スキーマの変更、データ品質の問題、資産償却などはビジネスに悪影響をもたらす可能性がありますが、データリネージを使用することであらかじめその影響を評価し、悪影響を最小限に抑えることができます」。
DeNA でデータ プラットフォーム部門のグループ マネージャーを努める Mitsunori Fukase 氏は、次のように話します。「数多くの事業領域やサービスを抱える当社は、大量のデータを扱い、それを意思決定に活かしています。そのため、データ品質の確保が当社にとっては非常に重要です。Dataplex データリネージでは、組織全体のデータのフローを視覚的に把握できるので、問題が発生したときの影響調査を効率的に実施できると同時に、データの信頼性を向上させることができます」。
Dataplex データリネージの利用方法
Dataplex データリネージは、プロジェクトで Data Lineage API を有効にすると利用できます。詳しくは、こちらをご覧ください。
補足資料:
- Google Cloud、プロダクト マネージャー George Verghese