グリーン エネルギー プロバイダによる Dataplex を使用したデータ ガバナンスとデータ品質管理
Google Cloud Japan Team
※この投稿は米国時間 2023 年 4 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。
ブラジルは世界で最も有望な再生可能エネルギー市場の一つであり、Casa Dos Ventos はパイオニアかつ投資家としてこの市場をリードしています。私たちは、イノベーションと投資によって、より競争力のあるサステナブルな未来への移行を主導しています。
当社では、「ビッグデータ」を活用してビジネスにとって重要な意思決定を行っています。ほとんどのデータはサーバーレスのエンタープライズ データ ウェアハウスである BigQuery に保存されています。さらに、Google Cloud の革新的なツールとサービスを使用することで、より効率的にビジネスを加速し、実際の現場で脱炭素化を大規模に推進しています。
たとえば、風力発電所の運用では、データを活用してエネルギーの生産、損失、効率を定量化しています。気象マスト(メットマストとも呼ばれる)に関しては、センサーデータと構成を継続的に取り込み、その健全性を分析しています。新しいプロジェクトや未開拓の分野のプロジェクトでは、データを使用して投資に関する意思決定を行っています。
意思決定を行う際は、稼働時間、効率性、費用対効果に関する目標に狂いが生じないよう、信頼できるデータが必要です。しかし、データの品質管理は私たちにとっては簡単ではなく、頻繁な対応を強いられていました。
以前は、BI ツールでルールとアラートを設定したり、カスタムの Python スクリプトを記述したりして、(もっと上手く機能させられたかもしれない)ソリューションを自社開発で構築していました。このようなアプローチは、スケーリングと標準化が難しく、往々にして費用もかさみました。
これらの問題を解決するために、当社は分散データを統合するインテリジェントなデータ ファブリックである Dataplex を採用して、組織内のデータ ガバナンスを改善し、データの信頼性を構築しました。Dataplex を使用することで、データの整理、保護、品質のモニタリングを非常に合理的に行うことができるようになりました。
私たちは、以下の 3 つの重要な目標を掲げて Dataplex の実装を開始しました。
組織のデータ ガバナンス フレームワークを定義する。
フレームワークへの準拠を定期的に測定するレポートを作成する。
データの品質を定期的に測定するレポートを作成する。
ここでは、その方法を紹介します。
組織のデータ ガバナンス フレームワークを定義する
私たちは、ビジネスに沿ってデータを整理し、Dataplex を使って組織のポリシーを設定することから始めました。
Dataplex では、レイク、データゾーン、アセットなどの構造を使用して、基盤となるデータ ストレージ システムを抽象化します。これらの構造を以下のフレームワークでビジネスにマッピングすることにしました。
レイク - 会社の各部門に 1 つのレイク
データゾーン - ゾーンを使用してサブ領域ごとにデータを分類する
未加工ゾーン - 生テーブルまたは若干の変更や集計が加えられたテーブルに使用されるデータセットを含む
キュレートされたゾーン - 集約テーブルまたは予測テーブル(ML モデルに使用される)を持つデータセットを含む
例:
これにより、レイクまたはゾーンレベルでデータ権限を設定できます。Dataplex は、ゾーンのアセットに対して継続的に権限をプロパゲートします。
データアセットのレポート作成およびデータアセットの管理
当社は、現在の状態を取得する 2 つのレポートにより、データ ガバナンスの状態をモニタリングしています。
一つ目のレポートでは、データ エステート全体を追跡します。私たちは BigQuery API を使用して、組織内の BigQuery テーブルすべてのメタデータを抽出できる Python スクリプト(Composer によってスケジュール)を開発しました。このレポートでは、文書化されたテーブルとビューの数といった重要な要素も測定されます。
もう一つのレポートでは、データ エステートを Dataplex ガバナンスに継続的に取り込むための進行状況も追跡しています。同じ手順(API + Python コード)に沿って、以下のダッシュボードを構築しました。現在、このダッシュボードによれば、Dataplex 下のデータセットは 71.6% に達しています。私たちの目標は、これを 100% にして維持することです。
データ品質スキャンおよびレポートの作成
データが Dataplex の管理下に入ったら、数回のクリックだけで Dataplex にデータ品質レポートとダッシュボードを構築できます。
Dataplex 内で複数のデータ品質スキャンが、重要なテーブルごとに一つずつ実行されます。ルールについては、組み込みのルールを使用しただけでなく、カスタム SQL ステートメントを使って独自のルールも作成しました。例としては、特定の条件に一致する行が存在しないことを確実にするために作成した、条件に一致する単一の行がある場合に FALSE を返す SQL ルールなどが挙げられます。
例: SQL ルール
これらのチェックが失敗した場合は、Dataplex AutoDQ が表示するクエリを使って、失敗した行を探します。
当社では、データ品質のダッシュボードを構築するために、Cloud Logging のログを使用して、BigQuery へのシンクを設定しています。データが BigQuery に格納されたら、以下のクエリでビューを作成します。
このビューを作成することで、レイクとゾーンごとにデータ品質スキャンの結果を分類できます。
次に、Tableau を使用して以下を行います。
ダッシュボードを作成する
Tableau のアラートを使用して、責任者にメール通知を送信する
以下は当社の Tableau ダッシュボードです。
今後の展望
当社は、ガバナンス体制の強化を実現した一方で、今後は Dataplex の使用をさらに拡大することも目指しています。すでに私たちは、BigQuery テーブルのリネージ機能を使用し、データ品質をリネージと統合する方法を学び始めています。これにより、データ品質の問題に影響を受けたダッシュボードとビューを簡単に確認できるようになるはずです。さらに、当社の GitHub アカウントで SQL スクリプトを管理することも計画しています。
このブログで紹介したスクリプトには、次のリンクからアクセスできます。https://github.com/Casa-dos-Ventos/project_data_governance_casa_dos_ventos_google