データ分析と AI 向けの機密性保持コンピューティング

Last reviewed 2024-12-20 UTC

このドキュメントでは、機密コンピューティングの概要について説明します。これには、安全なデータ コラボレーションと連携学習に機密コンピューティングを使用する方法が含まれます。このドキュメントでは、Google Cloud の Confidential Computing サービスと、さまざまなユースケースのアーキテクチャ リファレンスについても説明します。

このドキュメントは、金融サービスやヘルスケアなど、さまざまな業界における生成 AI と応用 AI による機密コンピューティングのビジネス上の可能性を、テクノロジー エグゼクティブが理解できるようにすることを目的としています。

Confidential Computing の概要

従来のデータ セキュリティ対策は、暗号化による保存中と転送中のデータの保護に重点を置いていました。Confidential Computing は、使用中のデータを保護することで、新しい保護レイヤを追加します。この技術により、機密情報は処理中も機密性を保つため、データ セキュリティの重要なギャップを解消できます。

Confidential Computing 環境は、ハードウェアベースの高信頼実行環境(TEE)を使用して、使用中のデータを保護します。TEE は、プロセッサ内の安全な領域であり、プロセッサ内に読み込まれるコードとデータの機密性と完全性を保護します。TEE は機密性の高いオペレーションの安全室として機能し、システムが侵害された場合でもデータのリスクを軽減します。Confidential Computing では、処理中にデータをメモリに暗号化された状態で保持できます。

たとえば、データ分析と ML に機密コンピューティングを使用すると、次のことを実現できます。

  • プライバシーの強化: 基盤となるインフラストラクチャや計算に関与する当事者にデータを公開することなく、機密性の高いデータセット(医療記録や財務データなど)を分析します。
  • 安全なコラボレーション: 個々のデータを互いに公開することなく、機械学習モデルを共同でトレーニングしたり、複数のパーティの統合データセットに対して分析を実行したりできます。機密コンピューティングは信頼を促進し、特に医療や金融などの分野で、より堅牢で一般化可能なモデルの開発を可能にします。
  • データ セキュリティの向上: データ侵害や不正アクセスのリスクを軽減し、一般データ保護規則(GDPR)や医療保険の相互運用性と説明責任に関する法律(HIPAA)などのデータ保護規制に準拠します。
  • 信頼性と透明性の向上: 計算が目的のデータに対して安全な環境で実行されていることを検証可能な証明を提供することで、関係者間の信頼を高めます。

機密コンピューティング環境の仕組み

機密コンピューティング環境には次の特性があります。

  • ランタイム暗号化: プロセッサは、機密コンピューティング環境のすべてのデータをメモリ内で暗号化された状態で保持します。機密コンピューティング環境のデータをメモリから直接読み取ろうとするシステム コンポーネントまたはハードウェア攻撃者は、暗号化されたデータのみを取得します。同様に、暗号化により、メモリへの直接アクセスによる機密コンピューティング環境データの変更を防ぐことができます。
  • 分離: プロセッサは、機密コンピューティング環境へのソフトウェアベースのアクセスをブロックします。オペレーティング システムや他のアプリケーションは、特定のインターフェースを介してのみ機密コンピューティング環境と通信できます。
  • 構成証明: Confidential Computing のコンテキストでは、構成証明は Confidential Computing 環境の信頼性を検証します。構成証明を使用すると、構成証明によって TEE インスタンスを認証できるため、機密コンピューティングによってデータが保護されていることをユーザーは確認できます。

    構成証明プロセス中に、TEE をサポートする CPU チップは、インスタンスの測定の暗号署名付きレポート(構成証明レポート)を生成します。測定結果は構成証明サービスに送信されます。プロセス分離の構成証明は、アプリケーションを認証します。VM 分離の構成証明は、VM、VM の起動に使用される仮想ファームウェア、またはその両方を認証します。

  • データ ライフサイクルのセキュリティ: Confidential Computing は、安全な処理環境を構築して、使用中のデータをハードウェアで保護します。

Confidential Computing テクノロジー

Confidential Computing を実現する技術は次のとおりです。

  • 安全なエンクレーブ(アプリケーション ベースのコンフィデンシャル コンピューティング
  • Confidential VMs と GPU(VM ベースの機密コンピューティング

Google Cloud は、Confidential VM を使用して機密コンピューティングを有効にします。詳細については、Google Cloudに機密コンピューティングを実装するをご覧ください。

セキュア エンクレーブ

セキュア エンクレーブは、ハードウェアベースの分離を使用するか、ハイパーバイザをトラステッド コンピューティング ベース(TCB)内に配置することで、オペレーティング システムからコードとデータを分離するコンピューティング環境です。セキュア エンクレーブは、マシンとオペレーティング システムに物理的なアクセス権またはルート権限を持つユーザーであっても、セキュア エンクレーブ メモリの内容を取得したり、エンクレーブ内のコードの実行を改ざんしたりできないように設計されています。セキュア エンクレーブの例として、Intel Software Guard Extension(SGX)があります。

Confidential VM と Confidential GPU

Confidential VM は、ハードウェアベースのメモリ暗号化を使用してデータとアプリケーションを保護する VM の一種です。Confidential VM は、セキュリティを強化するために分離と構成証明を提供します。Confidential VM コンピューティング テクノロジーには、AMD SEV、AMD SEV-SNP、Intel TDX、Arm CCA、IBM Z、IBM LinuxONE、Nvidia Confidential GPU などがあります。

Confidential GPU は、特にクラウドや共有環境で、データの保護とコンピューティングの高速化に役立ちます。ハードウェア ベースの暗号化と分離技術を使用して、GPU で処理中にデータを保護し、クラウド プロバイダや悪意のある攻撃者が機密情報にアクセスできないようにします。

業種別のユースケース

以降のセクションでは、さまざまな業界の機密コンピューティングのユースケースの例を示します。

医療とライフ サイエンス

Confidential Computing により、患者のプライバシーを保護しながら、組織間で安全なデータ共有と分析が可能になります。Confidential Computing により、医療機関は共同研究、疾患モデリング、医薬品探索、パーソナライズされた治療計画に参加できます。

次の表に、ヘルスケアにおける機密コンピューティングの使用例を示します。

ユースケース 説明

疾患の予測と早期発見

病院は、患者の機密性を維持しながら、医療画像データ(複数の病院または病院地域の MRI スキャンや CT スキャンなど)からがん性病変を検出するフェデレーション ラーニング モデルをトレーニングします。

リアルタイムの患者モニタリング

医療従事者は、ウェアラブル ヘルスデバイスやモバイル ヘルスアプリからデータを分析して、リアルタイムのモニタリングとアラートを行います。たとえば、ウェアラブル デバイスは血糖値、身体活動、食習慣に関するデータを収集し、血糖値の変動に関するパーソナライズされた推奨事項と早期警告を提供します。

共同創薬

製薬会社は独自のデータセットでモデルをトレーニングして新薬の開発を加速し、知的財産を保護しながらコラボレーションを強化します。

金融サービス

Confidential Computing により、金融機関はより安全で復元力のある金融システムを構築できます。

次の表に、金融サービスにおける機密コンピューティングの使用例を示します。

ユースケース 説明

金融犯罪

金融機関は、顧客のプライバシーを保護しながら、不審な取引に関する情報を共有することで、マネー ロンダリング防止(AML)や一般的な不正行為モデルの取り組みにおいて連携できます。金融機関は Confidential Computing を使用して、この共有データを安全に分析し、複雑なマネーロンダリングのスキームをより効果的に特定して阻止するようにモデルをトレーニングできます。

プライバシー保護信用リスク評価

融資機関は、他の金融機関や金融以外の事業体のデータなど、より幅広いデータソースを使用して信用リスクを評価できます。金融機関は Confidential Computing を使用して、不正な第三者にデータを公開することなく、このデータにアクセスして分析できます。これにより、データのプライバシーを維持しながら、クレジット スコアリング モデルの精度を高めることができます。

プライバシー保護を重視した料金の検出

金融の世界では、特に店頭市場や流動性の低い資産などの分野では、正確な価格設定が重要です。機密コンピューティングにより、複数の金融機関がセンシティブ データを相互に開示することなく、正確な料金を共同で計算できます。

公共部門

機密コンピューティングにより、政府はデータの管理と主権を維持しながら、より透明性、効率性、効果の高いサービスを構築できます。

次の表に、公共部門における機密コンピューティングの使用例を示します。

ユースケース 説明

デジタル主権

Confidential Computing では、処理中もデータが常に暗号化されます。これにより、市民データの安全なクラウド移行が可能になり、ハイブリッド、パブリック、マルチクラウド環境の外部インフラストラクチャでホストされている場合でもデータが保護されます。Confidential Computing は、デジタル主権とデジタル自治をサポートし、強化します。使用中のデータに対する追加のデータ制御と保護により、クラウド プロバイダが暗号鍵にアクセスできないようにします。

複数機関の機密性の高い分析

機密コンピューティングにより、複数の政府機関(健康、税金、教育など)または異なる地域や国にまたがる複数の政府間でのマルチパーティ データ分析が可能になります。Confidential Computing は、データ分析(データ損失防止(DLP)、大規模分析、ポリシー エンジンを使用)と AI トレーニングとサービングを可能にしながら、信頼境界とデータ プライバシーを保護します。

信頼できる AI

政府データは重要であり、信頼できる方法で非公開の AI モデルをトレーニングして、内部サービスと市民とのやり取りを改善するために使用できます。Confidential Computing では、機密プロンプトまたは機密検索拡張生成(RAG)トレーニングを備えた信頼できる AI フレームワークを使用して、市民データとモデルのプライバシーとセキュリティを維持できます。

サプライ チェーン

Confidential Computing を使用すると、組織はサプライ チェーンとサステナビリティを管理し、データのプライバシーを維持しながら分析情報を共有できます。

次の表に、サプライチェーンでの機密コンピューティングの使用例を示します。

ユースケース 説明

需要予測と在庫の最適化

機密コンピューティングでは、各企業が独自の販売データと在庫データに基づいて独自の需要予測モデルをトレーニングします。これらのモデルは、グローバル モデルに安全に集約され、サプライ チェーン全体の需要パターンをより正確かつ包括的に把握できます。

プライバシー保護サプライヤーのリスク評価

サプライヤーのリスク評価に関与する各組織(購入者、金融機関、監査人など)は、独自のデータで独自のリスク評価モデルをトレーニングします。これらのモデルを集約して、プライバシーを保護しながらサプライヤーの包括的なリスク プロファイルを作成します。これにより、潜在的なサプライヤー リスクを早期に特定し、サプライ チェーンのレジリエンスを強化し、サプライヤーの選択と管理における意思決定を改善できます。

温室効果ガス排出量の追跡と削減

Confidential Computing は、カーボン フットプリントの追跡と削減におけるデータ プライバシーと透明性の課題に対処するソリューションを提供します。機密コンピューティングにより、組織は元の形式を公開することなくデータを共有して分析できるため、より持続可能な未来に向けて情報に基づいた意思決定を行い、効果的な対策を講じることができます。

デジタル広告

デジタル広告は、サードパーティ Cookie から、プライバシー サンドボックスなどのプライバシーに配慮した代替手段に移行しています。プライバシー サンドボックスは、クロスサイト トラッキングとアプリ トラッキングを制限しながら、重要な広告ユースケースをサポートします。プライバシー サンドボックスは TEE を使用して、広告会社によるユーザーデータの安全な処理を確実にします。

TEEs は、次のようなデジタル広告のユースケースで使用できます。

  • マッチング アルゴリズム: データセット内の対応関係や関係を見つけます。
  • アトリビューション: 効果やイベントを、その原因の可能性が高いものにリンクすること。
  • 集計: 元のデータから要約または統計情報を計算します。

Google Cloudに Confidential Computing を実装する

Google Cloud には、機密コンピューティングを可能にする次のサービスが含まれています。

  • Confidential VM: VM を使用するワークロードで使用中のデータを暗号化します。
  • Confidential GKE: コンテナを使用するワークロードで使用中のデータを暗号化します。
  • Confidential Dataflow: ストリーミング分析と ML で使用中のデータを暗号化できます。
  • Confidential Dataproc: データ処理に使用されるデータの暗号化を有効にする
  • Confidential Space: 共同データ分析と ML に使用中のデータを暗号化できます。

これらのサービスを使用すると、信頼境界を縮小して、機密データにアクセスできるリソースを減らすことができます。たとえば、Confidential Computing のない Google Cloud環境では、信頼境界にはGoogle Cloud インフラストラクチャ(ハードウェア、ハイパーバイザ、ホスト OS)とゲスト OS が含まれます。 Google Cloud 環境で Confidential Computing が使用されている場合(Confidential Space なし)、信頼境界にはゲスト OS とアプリケーションのみが含まれます。Confidential Space を使用する Google Cloud環境では、信頼境界はアプリケーションとそれに関連付けられたメモリ空間のみです。次の表は、Confidential Computing と Confidential Space によって信頼境界がどのように縮小されるかを示しています。

要素 Confidential Computing を使用しない信頼境界内 Confidential Computing を使用している場合の信頼境界内 Confidential Space を使用する場合の信頼境界内

クラウド スタックと管理者

いいえ

×

BIOS とファームウェア

いいえ

×

ホスト OS とハイパーバイザ

いいえ

×

VM ゲスト管理者

×

VM ゲスト OS

はい、測定済みかつ証明済み

アプリケーション

はい、測定済みかつ証明済み

機密データ

Confidential Space は、VM 内に安全な領域を作成し、機密データとアプリケーションを最高レベルで分離して保護します。機密スペースの主なセキュリティ上のメリットは次のとおりです。

  • 多層防御: 既存の機密コンピューティング技術にセキュリティの追加レイヤを追加します。
  • 攻撃対象領域の縮小: ゲスト OS の潜在的な脆弱性からアプリケーションを分離します。
  • 制御の強化: 安全な環境内のアクセスと権限をきめ細かく制御できます。
  • 信頼性の強化: データの機密性と整合性の確保が強化されます。

Confidential Space は、特に規制の厳しい業界や、データ プライバシーが最優先されるマルチパーティ コラボレーションを含むシナリオで、機密性の高いワークロードを処理するように設計されています。

アーキテクチャの参照

Google Cloud に機密コンピューティングを実装すると、次のユースケースに対応できます。

  • 機密性の高い分析
  • Confidential AI
  • 機密性の高いフェデレーション ラーニング

以降のセクションでは、金融業や医療業の例など、これらのユースケースのアーキテクチャについて詳しく説明します。

医療機関向けの機密性の高い分析アーキテクチャ

機密性の高い分析アーキテクチャは、複数の医療機関(医療機関、バイオ医薬品、研究機関など)が連携して医薬品研究を加速する方法を示しています。このアーキテクチャでは、機密コンピューティング技術を使用して、機密性の高いコラボレーション分析を実行するためのデジタル クリーンルームを作成します。

このアーキテクチャには次のような利点があります。

  • 分析情報の強化: コラボレーション分析により、医療機関はより幅広い分析情報を得て、市場投入までの時間を短縮し、薬剤探索を強化できます。
  • データのプライバシー: 機密性の高い取引データは暗号化されたままで、他の参加者や TEE に公開されることはないため、機密性が確保されます。
  • 規制遵守: このアーキテクチャは、医療機関がデータを厳密に管理することで、データ保護規制に準拠するのに役立ちます。
  • 信頼とコラボレーション: このアーキテクチャにより、競合する機関間で安全なコラボレーションが可能になり、薬剤の探索のための共同作業が促進されます。

次の図は、このアーキテクチャを示しています。

医療機関向けの機密分析アーキテクチャの図。

このアーキテクチャの主なコンポーネントは次のとおりです。

  • TEE OLAP 集計サーバー: 機械学習モデルのトレーニングと推論が行われる、安全で分離された環境。TEE 内のデータとコードは、基盤となるオペレーティング システムやクラウド プロバイダからの不正アクセスから保護されます。
  • コラボレーション パートナー: 参加する各医療機関には、機関の非公開データと TEE の間の仲介役として機能するローカル環境があります。
  • プロバイダ固有の暗号化データ: 各医療機関は、電子医療記録を含む独自の非公開の暗号化された患者データを保存します。このデータは分析プロセス中も暗号化されたままであり、データのプライバシーが確保されます。データは、個々のプロバイダからの構成証明クレームを検証した後にのみ TEE に解放されます。
  • 分析クライアント: 参加している医療機関は、データに対して機密性の高いクエリを実行して、すぐに分析情報を取得できます。

金融機関向けの機密性の高い AI アーキテクチャ

このアーキテクチャ パターンは、金融機関が不正ラベルを使用して機密性の高い取引データの機密性を維持しながら、不正検出モデルを共同でトレーニングする方法を示しています。このアーキテクチャは、機密コンピューティング技術を使用して、安全なマルチパーティ ML を実現します。

このアーキテクチャには次のような利点があります。

  • 不正行為の検出の強化: コラボレーション トレーニングでは、より大規模で多様なデータセットが使用されるため、より正確で効果的な不正行為検出モデルが実現します。
  • データのプライバシー: 機密性の高い取引データは暗号化されたままであり、他の参加者や TEE に公開されることはないため、機密性が確保されます。
  • 規制遵守: このアーキテクチャは、金融機関がデータを厳密に制御することで、データ保護規制を遵守するのに役立ちます。
  • 信頼とコラボレーション: このアーキテクチャにより、競合する金融機関間で安全なコラボレーションが可能になり、金融犯罪に対抗するための共同の取り組みが促進されます。

次の図は、このアーキテクチャを示しています。

金融機関向けの機密分析アーキテクチャの図。

このアーキテクチャの主なコンポーネントは次のとおりです。

  • TEE OLAP 集計サーバー: 機械学習モデルのトレーニングと推論が行われる、安全で分離された環境。TEE 内のデータとコードは、基盤となるオペレーティング システムやクラウド プロバイダからの不正アクセスから保護されます。
  • TEE モデルのトレーニング: グローバル不正ベースモデルは、ML トレーニングを実行するためにコンテナとしてパッケージ化されます。TEE 内で、参加するすべての銀行の暗号化されたデータを使用して、グローバル モデルがさらにトレーニングされます。トレーニング プロセスでは、フェデレーション ラーニングや安全なマルチパーティ計算などの手法を使用して、元データが公開されないようにします。
  • コラボレーション パートナー: 参加する金融機関には、金融機関の機密データと TEE の間の仲介として機能するローカル環境があります。
  • 銀行固有の暗号化されたデータ: 各銀行は、不正行為ラベルを含む独自の非公開の暗号化された取引データを保持します。このデータはプロセス全体で暗号化されたままであり、データのプライバシーを確保します。データは、個々の銀行からの構成証明クレームを検証した後にのみ TEE にリリースされます。
  • モデル リポジトリ: コラボレーション トレーニングの出発点となる、事前トレーニング済みの不正行為検出モデル。
  • グローバルなトレーニング済み不正行為モデルとウェイト(緑色の線で示されています): 改良された不正行為検出モデルとその学習済みのウェイトは、安全に参加銀行に共有されます。その後、各金融機関は、この強化されたモデルをローカルにデプロイし、自社の取引における不正行為検出に利用できます。

金融機関向けの機密性の高いフェデレーション ラーニング アーキテクチャ

フェデレーション ラーニングは、厳格なデータ プライバシーとデータ主権を重視するお客様向けの高度なソリューションです。機密性の高い連携学習アーキテクチャは、AI アプリケーションでデータを安全かつスケーラブルかつ効率的に使用できるようにします。このアーキテクチャでは、データを 1 か所に集中させるのではなく、データが保存されているロケーションにモデルを配置します。これにより、データ漏洩に関連するリスクを軽減できます。

このアーキテクチャ パターンは、複数の金融機関が不正行為ラベルを使用して機密性の高い取引データの機密性を維持しながら、不正行為検出モデルを共同でトレーニングする方法を示しています。このプラットフォームでは、フェデレーション ラーニングと Confidential Computing 技術を使用して、トレーニング データを移動させることなく安全なマルチパーティ ML を実現します。

このアーキテクチャには次のような利点があります。

  • データのプライバシーとセキュリティの強化: フェデレーション ラーニングでは、機密データが各サイトに残るようにすることで、データのプライバシーとデータのローカリティを実現します。さらに、金融機関は、準同型暗号化や差分プライバシー フィルタなどのプライバシー保護手法を使用して、転送されるデータ(モデル重みなど)をさらに保護できます。
  • 精度と多様性の向上: 金融機関は、さまざまなクライアントのさまざまなデータソースでトレーニングすることで、堅牢で一般化可能なグローバル モデルを開発し、異種データセットをより適切に表現できます。
  • スケーラビリティとネットワーク効率: エッジでトレーニングを実行できるため、機関はフェデレーション ラーニングを世界中に拡張できます。また、機関はデータセット全体ではなくモデル重みのみ転送する必要があり、ネットワーク リソースを効率的に使用できます。

次の図は、このアーキテクチャを示しています。

機密性の高い連携学習アーキテクチャの図。

このアーキテクチャの主なコンポーネントは次のとおりです。

  • TEE クラスタ内の連携サーバー: 安全で隔離された環境内で、フェデレーション ラーニング サーバーが、最初に初期モデルをフェデレーション ラーニング クライアントに送信し、複数のクライアントの協力を調整します。クライアントはローカルのデータセットでトレーニングを実行し、モデルの更新内容をフェデレーション ラーニング サーバーに送信します。このデータが集計されてグローバルモデルが形成されます。
  • フェデレーション ラーニング モデル リポジトリ: フェデレーション ラーニングの出発点となる、事前トレーニング済みの不正行為検出モデル。
  • ローカル アプリケーション推論エンジン: タスクを実行し、ローカル データセットを使用してローカル計算と学習を行い、結果を連携学習サーバーに送信して安全に集計するアプリケーション。
  • ローカルの非公開データ: 各銀行は、不正行為ラベルを含む独自の非公開の暗号化された取引データを保持します。このデータはプロセス全体で暗号化されたままであり、データのプライバシーを確保します。
  • 安全な集約プロトコル(青い点線): 連携学習サーバーは、モデルをトレーニングするために個々の銀行の更新にアクセスする必要はありません。銀行またはサイトのランダムなサブセットから取得した更新ベクトルの要素ごとの重み付け平均のみが必要です。セキュアな集計プロトコルを使用してこれらの加重平均を計算すると、サーバーは、このランダムに選択されたサブセット内の 1 つ以上の銀行が特定の単語を書き込んだことを学習できますが、どの銀行が書き込んだかは学習できないため、フェデレーション ラーニング プロセスの各参加者のプライバシーが保護されます。
  • グローバルな不正行為トレーニング済みモデルと集計されたウェイト(緑色の線で示されています): 改良された不正行為検出モデルとその学習済みのウェイトは、安全に参加銀行に送り返されます。銀行は、この強化されたモデルをローカルにデプロイし、自社の取引における不正行為検出に利用できます。

次のステップ

寄稿者

  • Arun Santhanagopalan | テクノロジー / インキュベーション担当責任者、 Google Cloud
  • Pablo Rodriguez | CTO オフィス テクニカル ディレクター
  • Vineet Dave | テクノロジー / インキュベーション担当責任者、 Google Cloud