新たなセキュリティのブループリントで構築する安全なデータ ウェアハウス
Google Cloud Japan Team
※この投稿は米国時間 2022 年 4 月 7 日に、Google Cloud blog に投稿されたものの抄訳です。
Google Cloud が業界で最も信頼できるクラウドとなるために、Google Cloud はお客様がクラウド データ ウェアハウスでより良いセキュリティを実現できるように積極的に取り組んでいます。運命の共有という Google Cloud の信念が、強力なセキュリティのより簡単な構築、デプロイを実現するための原動力となり、Google はセキュリティ ブループリントという形でお客様にセキュリティのベスト プラクティスと明確なガイドを提供しています。本日は、新たに公開された安全なデータ ウェアハウスのブループリント ガイドとデプロイ可能な Terraform を加えたブループリントのポートフォリオを紹介していきます。
多くの企業はクラウドの機能を活用し、ビジネス上の機密情報を分析しています。しかしながら、お客様からは、クラウドベースのデータ ウェアハウス内での機密データの保護にかなりの時間を費やしている、という声が上がっています。データ ウェアハウスのデプロイとセキュリティ管理の有効化を加速するために、Google は安全なデータ ウェアハウスのブループリントをデザインしました。
安全なデータ ウェアハウスのブループリントとはなにか
安全なデータ ウェアハウスのブループリントは、セキュリティのベスト プラクティスを提供するもので、データの保護をサポートし、Google Cloud のデータ、機械学習(ML)、人工知能(AI)のソリューションの導入を促進します。ブループリントのアーキテクチャは、データのライフサイクルを網羅するだけではなく、以下の図に示すようにガバナンスとセキュリティの対策も組み込んでいます。
ブループリントは、複数のコンポーネントで構成されています。
保管領域では、バッチデータまたはストリーミング データを取り込みます。
データ ウェアハウスのコンポーネントでは、ストレージの処理とデータの匿名化を行います。これは、後から別プロセスで再識別化することができます。
分類とデータ ガバナンスのコンポーネントでは、暗号鍵、匿名化テンプレート、データ分類タクソノミーを管理します。
セキュリティ対策のコンポーネントでは、検出、モニタリング、レスポンスをサポートします。
ブループリントでは、環境内で適切なクラウド サービスをデプロイし構成する方法を示すことで、こうしたコンポーネントを作成します。ブループリントの範囲外であるデータ プレゼンテーションのコンポーネントでは、チームが選択したビジネス インテリジェンス ツールを使用します。たとえば Looker などの使用するツールでは、データ ウェアハウスに適切にアクセスできることを確認するようにします。
利用を開始するには、まずブループリントをフレームワークとして使用しながら、推奨されるセキュリティ管理をチームで話し合います。それから、最もセンシティブなデータに対する組織内の要件に合うように、ブループリントをカスタマイズして導入します。
それでは、このブループリントが組織にもたらしてくれる、安全なビジネス分析の促進、データ ウェアハウス向けの強力なベースライン セキュリティ管理の提供というメリットについて、詳細を確認していきます。
ビジネス分析の促進
セキュリティのエクスペリエンスやベスト プラクティスの知識が限られていると、データ ウェアハウスの変革計画が制限されてしまう場合があります。ブループリントは、コード技術、データ ガバナンスのベスト プラクティス、セキュリティのゴールを達成するためのパターンの例を提供することで、こうしたニーズにあらゆる方法で対処していきます。
このブループリントは、インフラストラクチャのコード化や環境の宣言などの Infrastructure as Code(IaC)技術を提供します。それにより、チームは管理を分析し、データ ウェアハウスの作成、デプロイ、運用のために管理を企業の要件と比較できるようになります。また、IaC 技術は、企業が実施する規制のレビューとコンプライアンスのレビューの簡略化にも役立ちます。ブループリントには柔軟性があり、新しいイニシアチブを開始することも、既存の環境にデプロイするために構成することもできます。たとえば、ブループリントの既存のネットワークとロギング モジュールを使用するように選択することも可能です。代替として、既存のネットワークとロギング モジュールを維持し、ブループリントの最適化案と比較することができ、ベスト プラクティスによって環境をさらに強化することが可能です。
また、ブループリントは、データ ガバナンスに関するガイドおよび一連の Google のベスト プラクティスも提供します。さらに、BigQuery の列レベルでのアクセスを制御する Data Catalog のポリシータグの実装をサポートします。任務の分離の原則が適用可能です。ブループリントでは複数のペルソナを定義し、最小権限の IAM ロールを追加しているため、グループを通してユーザー ID 権限の管理が可能です。
ときにパターンの例を確認し、採用することが、チームによる新しいサービスの利用促進に役立ちます。チームは、馴染みのないサービスやコンセプトの詳細な設定に向きあうのではなく、企業の目標を達成するためのカスタマイズに集中することが可能です。たとえば、このブループリントでは、Dataflow の Flex テンプレートをインフラストラクチャと分けて構築する方法の例を示しています。以下の方法を例の中で紹介しています。
個別の再識別プロセスと環境の作成。
Cloud Data Loss Prevention(DLP)によるデータ損失防止(DLP)や、Cloud HSM による顧客管理の暗号鍵といった、データ保護とガバナンス管理の適用。
システムを介して送信できるサンプルの合成データを生成し、機密データが環境でどのように処理されるかの観察。
Google では、こうしたガイドを提供し、データ ウェアハウスの完全性とセキュリティの迅速なレビューを支えていきます。
階層化されたセキュリティ管理によるデータの保護
このブループリントを使用することで、セキュリティ、リスク、コンプライアンスのチームに、どのセキュリティ管理が環境に導入されているかを示すことができます。ブループリントでは、管理するインフラストラクチャを最小限に抑えることができるアーキテクチャを構築し、多数のビルトインのセキュリティ管理を使用します。以下の図は、アーキテクチャで使用されるサービスだけではなく、データを保護するためにどのようにサービスが連携しているかも示しています。VPC Service Controls は境界を作り出して、機能面でサービスをグループ分けします。境界ブリッジは、コミュニケーションを可能にし、境界間でモニタリングできるように定義します。
データ ガバナンス境界は、Cloud HSM に保存された暗号鍵、Cloud DLP で使用された匿名化テンプレート、Data Catalog で定義されたデータ分類タクソノミーを管理します。この境界は、監査ロギングやモニタリングの中心的な場所としての役割も担います。
データの取り込み境界では Dataflow を使用し、匿名化テンプレートに基づいてデータを匿名化して、BigQuery にデータを保存します。
機密データの境界は、センシティブ データの再識別化が必要なケースを対象とします。異なるプロジェクトの独立した BigQuery データセットにデータを送信するために、別の Dataflow パイプラインが作成されます。
IAM、組織のポリシー、ネットワーキングなどの追加のレイヤについては、安全なデータ ウェアハウスのブループリント ガイドで詳しく説明されています。
データ漏洩を最小限に抑制、データ ウェアハウスのセキュリティ管理の構成、コンプライアンスの促進という、セキュリティに関するディスカッションでよく持ち上がる 3 つの話題に、これらの管理がどのように関係しているかを確認していきましょう。
データ漏洩を最小限に抑制
ブループリントは、複数の VPC Service Controls 境界と対応するブリッジのデプロイを可能にし、それによりデータがどこを通過するかのモニタリングと定義が可能となります。これらの境界は、指定のプロジェクトやサービスにデータを閉じ込めることができます。境界へのアクセスは、Access Context Manager ポリシーのコンテキスト情報で補強されます。
ブループリントは、データの通過と確認が可能な境界を伴う環境の作成をサポートします。組織のポリシーをカスタマイズすることも、外部 IP の使用を禁止するなどのガードレールの作成を助ける提供された組織のポリシーを使用することも可能です。転送中のデータは、サービスにプライベート ネットワークおよびプライベート接続を使用することで、信頼できるネットワーク上に留まることになります。提供された Cloud DLP 構成を使用して、データに意図しないアクセスがあった場合に、強化されたセキュリティ保護でデータの匿名化を実現します。データは、Cloud DLP の暗号変換方法で難読化されます。
最もセンシティブなデータに誰がアクセスできるかを制限することは、重要な考慮事項です。ブループリントでは、きめ細かな IAM のアクセスポリシーを使用して、最小権限かつ最小のラテラル ムーブメントを実現します。こうした IAM ポリシーは範囲が限られており、プロジェクト レベルではなく可能な限りリソースの近くにバインドされます。たとえば、IAM のアクセス ポリシーは、BigQuery の保護に使用される鍵にバインドされます。また、ユーザー ID ではなくサービス アカウントが、データのオペレーションを実施するために定義されます。こうしたサービス アカウントには、最小権限になるように事前定義されたロールが付与されます。こうした特権アカウントにバインドされている IAM は、ブループリントに透明的に定義されているため、IAM ポリシーの評価とモニタリングが可能です。適切なユーザーを許可し、BigQuery で列レベルのアクセス制御を使って追加のアクセス許可を与えることで、再識別化したデータを確認することが可能です。
広く浸透するデータ ウェアハウス管理の構成
データ ウェアハウスのセキュリティ管理は、1 つのサービスに集中するのではなく、複数のリソースにわたる、さまざまなデータ ウェアハウスの要素を網羅します。さまざまなセキュリティ管理が、異なるモジュールにパッケージ化されています。たとえば、信頼性のある境界を保護したい場合は、Cloud DLP の匿名化テンプレートを作成し、取り込みまたは再識別のために BigQuery のコントロールを使用するか Dataflow パイプラインを構築することで、特定のモジュールを探索できます。それらのモジュールは、要件に合うように調整することが可能です。
データ暗号化の管理はサービスごとに有効化でき、顧客管理の暗号鍵でデータを保護します。複数の鍵が作成され、それらの鍵は特定の目的のために個別の暗号学的境界線を定義します。たとえば、ある鍵は取り込みを処理するサービスに使用され、別の鍵は BigQuery 内のデータを保護するために使用されます。こうした鍵には自動ローテーションのポリシーがあり、Cloud HSM に保存されます。
ブループリントは、Data Catalog のポリシータグを適用することで、データ ガバナンスの構築をサポートします。それにより、自分で定義する分類階層を作成することができます。次の図は、最も高いアクセスレベルに「Confidential」とタグが付けられた階層を示しています。
こうしたポリシータグは、BigQuery テーブル スキーマに適用され、列レベルのアクセス制御を可能にします。
誰がデータにアクセスできるかを制限する IAM ポリシー以外にも、Dataflow の Streaming Engine や組織のポリシーなどのその他の制御が準備されていれば、管理する必要のある事項を最小限におさえることが可能です。サービス アカウントの作成を阻止するなどの複数の組織のポリシーを構成すると、変更が生じたときに明確に確認できます。こうしたポリシーはプロジェクト レベルで適用されることで、柔軟性が増し、制御の粒度が高まります。
コンプライアンスのニーズの促進
ブループリントは、Cloud DLP の暗号変換方法を使ってデータ最小化の要望に応えるサポートをしています。また、Google は最近、BigQuery の自動 DLP を追加し、環境内で予期しないタイプのデータを検知する組み込みの機能を提供しています。この新たに統合された DLP 機能は、環境の視認性を高め、評価を助けます。データ暗号化は、FIPS 140-2 レベル 3 認定 HSM のクラスタで構築された Cloud HSM で管理している鍵を使用するデプロイ済みのサービス内で実施されます。
データへのアクセス制御は、データへのアクセスを最小権限とする原則に沿って構築されたサービス アカウントで構成されています。ユーザー ID が機密データを読み取る必要がある場合、その ID はデータセットと列の両方で明示的にアクセスが許可されている必要があり、さらに監査ログがそれらの IAM の更新をキャプチャする必要があります。Access Context Manager で定義されたポリシーにより、追加のコンテキスト情報が得られ、より粒度の高いアクセスが可能となります。Access Context Manager ポリシーは、IP やユーザー ID などのコンテキスト情報で構成されており、さらに増強することが可能です。
加えて、セキュリティ基盤のブループリントから、さらなる Google のベスト プラクティスが活用できます。このブループリントでは、Security Command Center、Cloud Logging、Cloud Monitoring などの組み込みのセキュリティ管理を使用しています。セキュリティ基盤ブループリントのロギングとモニタリングのセクションでは、脅威の検証に関するニーズに対し Security Command Center がどうサポートするかを説明しています。Security Health Analytics は Security Command Center の組み込みサービスであり、構成ミスを最小限に抑えるために各プロジェクトをモニタリングしています。監査ログは、CMEK で一元的に構成されており、アクセスのモニタリングをサポートします。加えて、追加の分析情報を得るために、アクセスの透明性が構成される場合があります。
また、外部での検証や外部からの視点を得ることも当然、助けになります。Google サイバーセキュリティ対応チームとサードパーティ セキュリティ チームは、このブループリントに基づいて確立されたセキュリティ管理とセキュリティ対策のレビューを行っています。レビューについて詳しくは、ガイドのその他のセキュリティに関する考慮事項のトピックをご覧ください。こうした外部のレビューは、ベスト プラクティスや強固な管理を導入していることを実感させてくれるもので、特に機密性の高いデータの保護に役立ちます。
ベスト プラクティスの確認
ベスト プラクティスについて詳しくは、安全なデータ ウェアハウスのブループリント ガイドをご覧ください。また、ガイド付きのチュートリアルと併せてデプロイ可能な Terraform もご利用ください。さらに、「再構築するのかフォークリフトで持ち上げるのか、クラウドでデータ ウェアハウスを保護する方法」というタイトルのセキュリティに関するポッドキャストもぜひお聞きください。Google の拡張を続けるブループリントのポートフォリオは、Google Cloud セキュリティ ベスト プラクティス センターから入手できます。これらのブループリントは、お客様の Google Cloud 環境に最初からセキュリティを組み込み、Google でより安全なデータ ウェアハウスを構築するために役立ちます。
- Google Cloud セキュリティ担当シニア プロダクト マネージャー Andy Chang
- セキュリティとコンプライアンス担当カスタマー エンジニア Erlander Lo