コンテンツに移動
データ分析

データ共有および分析プラットフォームで組織全体でデータを活用

2023年8月2日
Google Cloud Japan Team

※この投稿は米国時間 2023 年 7 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。

データや分析を安全に共有することは、組織のデータクラウド戦略の根幹です。これは、自分の組織やステークホルダーのために、データアセットから価値を引き出し、創造する方法です。しかし、複数のチームやシステム、他の組織との間でコラボレーションを行う大規模でデータリッチな組織では、データ共有を安全に行うことが困難な場合がよくあります。このような場合は、何から始めるべきでしょうか。

Google は、英国の公共機関と協力して、大規模なハイブリッドおよびマルチクラウドのデータ共有および分析機能を構築するための野心的なプログラムを進めています。こうしたコラボレーションに基づき、このプラットフォームの次のバージョンを計画しています。ここでは、このコラボレーションを通じた経験、および大規模なマルチクラウド環境を持つ他のお客様の事例から得られたリファレンスをご紹介します。これから始めようとしている方には時間の節約になり、すでに着手している方には参考として役立ちます。

ブループリントとアーキテクチャ

Google Cloud がもたらす価値の一つは、エンドツーエンドのアーキテクチャを実装できることです。これにより組織は、データがどのクラウドやデータストアに存在するかに関係なくリアルタイムでデータを抽出でき、統合されたガバナンスとアクセスによって、より優れたインサイトと AI のためにそのデータを使用できます。Google のお客様は、他のサードパーティのソースからデータを取り込んだり、サードパーティのユーザーへのアクセスを許可したりする必要があるため、Google のアーキテクチャの計画にはお客様固有のニーズが含まれています。この計画について詳しく見ていきましょう。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Diagram_1_-_High_Level_Architecture.max-2200x2200.png

データの取り込み 

データの取り込みには、繰り返し可能なパターンを用意することが重要です。Google のお客様の場合、データは Google Cloud に直接保持される場合も、プラットフォーム外に保持される場合もあります。大規模な政府機関の多くは、このようなマルチクラウドでのデータ統合の課題に直面しています。プラットフォームで所有および保持するデータについては、Cloud Data Fusion や Cloud Storage Transfer Service などのツールを介して pull でき、Google Cloud、Amazon、Azure、オンプレミスなどのさまざまなストレージ ロケーションからオブジェクトやファイルを迅速かつ安全に取り込むことができます。また、Google Cloud Storage API や BigQuery Storage API でデータを push し、レコードをリアルタイムで BigQuery にストリーミングしたり、任意の多数のレコードをバッチ処理したりできます。

データが Google Cloud の外部に存在し、組織にはクエリを実行する権限はあるが、データをその場所に保持する必要がある場合、BigQuery Omni を使用して、利用可能なリージョンの AWS S3 や Azure Blob にあるデータをクエリできます。Looker を使用すると、データベースへのさまざまなコネクタから選択して外部データをクエリすることもできます。また、Analytics Hub を使用すると、ユーザーは他の GCP 組織が公開したデータにアクセスできます。
https://storage.googleapis.com/gweb-cloudblog-publish/images/Diagram_2_-_Data_Storage.max-1500x1500.png

ランディング ゾーンとデータ処理

データがプラットフォームに到達したら、そのデータを変換、ステージング、キュレートする必要があります。データ変換の面倒な作業は、Dataproc(Spark ジョブの場合)や Dataflow(Apache Beam を使用したストリーミング ジョブの場合)などのツールで実行されます。これらの環境はサーバーレスかフルマネージドのいずれかで、ニーズに応じて自動的にスケールでき、必要とするコードベースのデータ変換を指定できます。データを異なるプロジェクトに分離できるため、アクセス権限の管理が容易になり、最小権限の原則に従うことができます。データ変換と移動のさまざまなステップのオーケストレーションは、Cloud Composer(マネージド Airflow)や Cloud Workflows などのツールで行う必要があり、これによりデータ パイプラインにリネージと監査可能性を提供します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Diagram_3_-_Data_Processing.max-1800x1800.png

セキュリティ、ガバナンス、モニタリング

政府機関や規制の厳しい業界では、セキュリティに特に注意を払う必要があります。Google Cloud のデータは保存中も転送中もすべて暗号化されます。運用のオーバーヘッドを軽減するために、Google が管理する暗号鍵を使用するか、独自の暗号鍵を使用するかを必要に応じて選択できます。いずれの場合も、データを保護するには多層アプローチを取る必要があります。プラットフォームのプロジェクトの周囲に VPC-SC 境界を設定することで、IP アドレス、ID、信頼できるデバイスに基づいたセキュリティ要件をすべてのアクセスで満たすことができます。また、Identity-Aware Proxy を使用すると、関連する VM に運用チームがシェルアクセスできるようになります。Cloud Logging でセンシティブ データを含むリソースのデータアクセス ログを有効にすると、プラットフォームの完全な可視化と監査性を確保できます。Cloud Monitoring を利用して、不要なイベントのアラートと通知を作成することも可能です。

さらに、Dataplex を使用すると、レイク、ゾーン、さまざまなティアにわたるデータを簡単に整理でき、独自のガバナンス フレームワークを実装できます。このような組織の明確化に加えて、一元化されたデータ保持ポリシー、データ リネージ、データ品質、データ分類など、他の多くのセキュリティ機能を組み合わせることで、セキュリティ対策とプラットフォームの監査性がさらに向上します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Diagram_4_-_Data_Security__Governance.max-700x700.png

データ公開

政府機関において、公的機関や他の行政機関とのデータ共有が望まれることはよくあります。このため、ユーザーが他の組織のデータにもアクセスできるプラットフォームを構築する必要がありますが、同時に、他の組織からも内部の所有データにアクセスできるようにする必要があります。実際に、このような Google のお客様の課題がありました。これを実現するには、さまざまなデータソース間で権限を管理しつつデータを利用できるようにする必要があり、それと同時に、データ管理を一元化するのではなく、データ所有者が制御できるようにする必要があります。こうした状況で役立つのが Analytics Hub です。Analytics Hub を使用することで、内部および外部の資産のライブラリを効率的かつ安全にキュレートし、組織内や組織間でデータを交換できるようになります。Analytics Hub 内のエクスチェンジはデフォルトでは非公開ですが、きめ細かいロールと権限を簡単に設定できるため、適切なユーザーに大規模にデータを配信できます。このように、データ パブリッシャーは、すべての共有データセットのサブスクリプションを簡単に表示して管理でき、所有するデータをコントロールできます。データ サブスクライバーは、不透明で読み取り専用のリンク済みデータセットをプロジェクト内で取得します。このブループリントなら、真のデータ共有エクスチェンジを作成できます。他のエクスチェンジをサブスクライブして、プラットフォームのユーザーによる複数のソースから複数のデータセットへの安全なアクセスを可能にします。

一方、非構造化データについては、取り込み時に変換することも(たとえば、Document AI を使用して、ドキュメント内のデータを体系化してラベル付けする)、Cloud Storage に常駐させて BigQuery のオブジェクト テーブル経由でアクセスすることもできます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Diagram_5_-_Data_Publishing.max-1300x1300.png

分析ゾーン

お客様のアナリストが次に必要としたのは、アクセスしたデータを分析し、そこから価値を生み出すためのツールでした。ビジュアリゼーションとインサイトのために Looker を使用すれば、利用可能なデータセットに接続し、ビジネス ユーザーがダッシュボードからインタラクティブにデータを探索することが可能になります。アナリストは、BigQuery とその UI を使用することで、パワフルな SQL クエリを実行するためのシンプルなインターフェースを利用でき、より複雑な質問に対する回答を迅速に得られます。プラットフォームにアクセスするデータ サイエンティストは、ML モデルの開発やデータ内の複雑な関係の調査のために Vertex AI を使用したいと考えるかもしれません。データ サイエンティストは、使い慣れたオープンソースの Jupyter ノートブックをベースにした Vertex AI ノートブックを使用できます。GPU などのパワフルなアクセラレータにアクセスでき、Google の AutoML 機能で開発のスピードアップが実現します。また、デベロッパーは完全にカスタマイズ可能なウェブベースの IDE として Cloud Workstations を使用できます。こうした機能によって、ビジネス ユーザーからデータ サイエンティストやエンジニアまで、あらゆるタイプのユーザーをデータ プラットフォームでサポートできます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Diagram_6b_-_Analytics__Metadata.max-1500x1500.png

ユーザーとアクセスの管理 

ユーザーには、権限を管理するグループを割り当てる必要があります。Cloud Identity and Access Management(IAM)は、適切な権限を持つグループに属するユーザーのみが許可されたデータにアクセスし、分析サービスで許可された一連のアクションのみを実行できるようにします。

同時に、プラットフォーム上のすべてのユーザーに対して多要素認証(MFA)を適用する必要があります。MFA には、可能な限りハードウェア キーを使用し、高い権限を持つユーザーを優先することをおすすめします。BeyondCorp Enterprise 機能では、ユーザーのアクセス コンテキストを制御して、最低限のセキュリティ レベルをエンドポイントのセキュリティ対策として適用できます。たとえば、最新のオペレーティング システムの使用や、組織によって管理されているエンドポイントからの接続を要件にできます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Diagram_7_-_User_and_Access_Management.max-900x900.png

ブループリントを使ってみる

Google は、多くの公共機関のお客様と協力し、部門間のサイロ化を解消してデータソースのインテグレーションによるメリットを享受できるよう取り組んできました。このブループリントでは、データ分析および共有プラットフォームの根幹である、データの取り込み、データのステージングと変換、データの公開、分析ツール、セキュリティ、ユーザーのアクセス管理について説明しています。

さらに知識を深めたい場合は、データ エンジニアやクラウド アーキテクトの学習プログラムの受講、および Professional Cloud Architect や Professional Data Engineer の認定資格の取得をご検討ください。アーキテクチャの設計について Google のサポートをご希望の場合は、Google のプロフェッショナル サービスにお問い合わせください。


Sebastien と Filipe は、この投稿の執筆と編集に協力してくれた Peter と Janos に感謝します。

- AI / ML カスタマー エンジニア Filipe Gracio
- プロフェッショナル サービス コンサルタント Sebastien Chaspoux

投稿先