Google Cloud でのフェデレーションラーニング

Last reviewed 2022-06-08 UTC

このドキュメントでは、フェデレーションラーニングのユースケースの実装について説明します。このドキュメントでは、マルチクラウド環境とハイブリッド環境の両方で行う必要のあるセキュリティと分離に関する考慮事項について説明します。ここでは、フェデレーションラーニングシステムの実装に関心がある IT 管理者、IT アーキテクト、データサイエンティストを対象としています。

フェデレーションラーニング

フェデレーションラーニングとは、組織のグループまたは同じ組織内のグループが、共有するグローバル ML モデルを共同で繰り返しトレーニングし、改善できるようにする機械学習（ML）手法です。この手法では、個々のデバイスやグループ外でデータが共有されることはありません。参加する組織は、地理的なリージョンやタイムゾーン、または同じ組織内の事業単位間など、さまざまな構成の連携を形成します。

フェデレーションラーニングでは、同質で同一の分散データ、または独立しておらず、まったく分散されていない可能性のあるデータで ML モデルをトレーニングすることに焦点を当てています。フェデレーションに参加する組織間で固有のデータは交換されません。フェデレーションラーニングでは、プライバシー、規制、技術的制約により、組織間でデータを共有することが一般的に難しい業界やユースケースで ML を実装できます。ユースケースの一例として、同じ臨床試験に参加する世界中の病院グループが挙げられます。通常、個々の病院が患者に関して収集するデータは、その管理や病院環境を離れることはできません。そのため、病院は患者データを第三者に転送することができません。提携する病院はフェデレーションラーニングで、各病院内の患者データの管理を維持しながら、共有 ML モデルをトレーニングできます。

フェデレーションラーニングのユースケースを実装する

Google Cloud にフェデレーションラーニングのユースケースを実装するには、次の最低限の前提条件を満たす必要があります。詳細については、以降のセクションをご覧ください。

フェデレーションラーニングコンソーシアムを確立します。
フェデレーションラーニングコンソーシアムのコラボレーションモデルを決定し、コンソーシアムの各参加者の責任を実装して決定します。

これらの前提条件に加えて、フェデレーションのオーナーは、以下のようなアクションを行う必要があります（このドキュメントでは扱いません）。

フェデレーションラーニングコンソーシアムの管理。
コラボレーションモデルの設計と実装。
モデルのトレーニングデータと、フェデレーションオーナーがトレーニングするモデルの準備、管理、操作。
フェデレーションラーニングワークフローの作成、コンテナ化、オーケストレーション。
フェデレーションラーニングワークロードのデプロイと管理。
データを安全に転送するための参加組織の通信チャネルの設定。

フェデレーションラーニングコンソーシアムを確立する

フェデレーションラーニング作業に参加する組織のグループは、フェデレーションラーニングコンソーシアムを確立します。組織は ML モデルのパラメータのみを共有します。また、プライバシーを強化するために、これらのパラメータは暗号化されます。フェデレーションラーニングコンソーシアムで許可されている場合は、組織は個人情報（PII）を含まないデータを集約することもできます。

フェデレーションラーニングコンソーシアムのコラボレーションモデルを決定する

フェデレーションラーニングコンソーシアムは、次のようなさまざまなコラボレーションモデルを実装できます。

フェデレーションオーナーまたはオーケストレーターと呼ばれる 1 つの調整組織と、参加組織またはデータオーナーのセットで構成される集中モデル。
グループとして調整される組織で構成される分散モデル。
多様な参加組織のコンソーシアムで構成される異種モデル（すべての組織が異なるリソースをコンソーシアムに導入する）。

このドキュメントでは、コラボレーションモデルが集中モデルであることを前提としています。

参加組織の責任を決定する

フェデレーションラーニングのコラボレーションモデルを選択したら、フェデレーションオーナーは参加組織の責任を決める必要があります。

フェデレーションオーナーは、フェデレーションラーニングコンソーシアムの構築時に、以下のことも行う必要があります。

フェデレーションラーニング作業を調整する。
グローバル ML モデルと、参加組織と共有する ML モデルを設計して実装する。
フェデレーションラーニングラウンド（ML トレーニングプロセスのイテレーションの手法）を定義する。
特定のフェデレーションラーニングラウンドに参加する参加者の組織を選択する。この選択はコホートと呼ばれます。
参加者組織のコンソーシアムのメンバーシップ確認手順を設計して実装する。
グローバル ML モデルと ML モデルを更新して、参加組織と共有する。
フェデレーションラーニングコンソーシアムがプライバシー、セキュリティ、規制の要件を満たしていることを確認するツールを参加組織に提供する。
安全で暗号化された通信チャネルを参加組織に提供する。
各フェデレーションラーニングラウンドを完了するために必要となる、機密情報でない集計データを参加組織に提供する。

参加組織に次の責任を担う必要があります。

安全な隔離環境（サイロ）を用意し、維持する。サイロは、参加組織が独自のデータを保存し、ML モデルのトレーニングを実装する場所です。
独自のコンピューティングインフラストラクチャと独自のローカルデータを使用して、フェデレーションオーナーから提供されるモデルをトレーニングする。
PII を削除した後、モデルのトレーニング結果を集計データの形式でフェデレーションオーナーと共有する。

フェデレーションオーナーと参加組織は、要件を満たすまで ML モデルトレーニングを改良します。

Google Cloud にフェデレーションラーニングを実装する

フェデレーションラーニングコンソーシアムを確立し、コラボレーションの方法を決定したら、参加組織で以下を行うことをおすすめします。

フェデレーションラーニングコンソーシアムに必要なインフラストラクチャをプロビジョニングして構成する
コラボレーションモデルを実装する。
フェデレーションラーニング作業を開始する。

フェデレーションラーニングコンソーシアムのインフラストラクチャをプロビジョニングして構成する

フェデレーションラーニングコンソーシアムのインフラストラクチャをプロビジョニングして構成する場合、フェデレーション ML モデルをトレーニングするワークロードを作成して参加組織に配信するのは、フェデレーションオーナーの責任です。サードパーティ（フェデレーションオーナー）がワークロードを作成して提供しているため、参加組織は、それらのワークロードをランタイム環境にデプロイする際に注意が必要です。

参加組織は、個々のセキュリティのベストプラクティスに従って環境を構成し、各ワークロードに付与されるスコープと権限を制限するコントロールを適用する必要があります。個々のセキュリティのベストプラクティスに従うことに加えて、フェデレーションオーナーと参加組織は、フェデレーションラーニングに固有の脅威ベクターを検討することをおすすめします。

Google Cloud 上のフェデレーションラーニングワークロード間のアクセスと分離を制御できる安全なランタイム環境を実装するために、参加しているすべての組織が Google Kubernetes Engine（GKE）を使用することをおすすめします。

フェデレーションラーニングに必要なすべての機能とセキュリティ制御を提供するように GKE クラスタをプロビジョニングおよび構成する方法については、サードパーティによって配布されるアプリ用の GKE クラスタの準備をご覧ください。このアプローチでは、マルチテナントアーキテクチャを使用し、フェデレーションモデルをトレーニングするワークロードは GKE クラスタ内のテナントとして扱われます。テナントは専用の Kubernetes Namespace にグループ化され、Namespace は専用の GKE クラスタノードで相互に分離されます。このアプローチでは、テナントワークロードをホストするノードと Namespace にセキュリティ制御とポリシーを適用できます。

コラボレーションモデルを実装する

フェデレーションラーニングコンソーシアムインフラストラクチャを準備した後、フェデレーションオーナーは、参加組織が相互にやり取りできるメカニズムを設計して実装します。この手法は、フェデレーションオーナーがフェデレーションラーニングコンソーシアムに選択したコラボレーションモデルに沿っています。

さまざまなコラボレーションモデルの設計と実装については、このドキュメントでは扱いません。

フェデレーションラーニング作業を開始する

コラボレーションモデルの実装後、フェデレーションオーナーはトレーニングするグローバル ML モデルと、参加者の組織と共有する ML モデルを実装します。これらの ML モデルの準備ができたら、フェデレーションオーナーはフェデレーションラーニング作業の最初のラウンドを開始します。フェデレーションラーニングの各ラウンド中に、フェデレーションオーナーは次のことを行います。

個人情報（PII）が漏れるのを防ぐため、トレーニングデータを前処理して参加組織と共有する。
参加組織と共有する ML モデルを、必要なトレーニングデータとともに配布する。
参加組織が、フェデレーションオーナーによって共有されている ML モデルのトレーニングの結果を提供するのを待機する。
参加組織が生成したトレーニング結果を収集して処理する。
参加組織から適切なトレーニング結果を受け取ったときに、グローバル ML モデルを更新する。
必要に応じて、ML モデルを更新してコンソーシアムの他のメンバーと共有する。
フェデレーションラーニングの次のラウンド用にトレーニングデータを準備する。
フェデレーションラーニングの次のラウンドを開始する。

セキュリティ上の考慮事項

厳格なデータ共有モデルにもかかわらず、フェデレーションラーニングは、すべての標的型攻撃に対して本質的に安全ではありません。また、ML モデルやモデルトレーニングデータに関する意図しない情報の漏洩のリスクもあります。たとえば、攻撃者は、グローバルな ML モデルやフェデレーションラーニングの取り組みのラウンドを意図的に侵害したり、タイミング攻撃（一種のサイドチャネル攻撃）を使用して、トレーニングデータセットのサイズに関する情報を収集する可能性があります。

フェデレーションラーニングの実装に対する最も一般的な脅威は次のとおりです。

意図的または非意図的なトレーニングデータの記録。フェデレーションラーニングの実装または攻撃者が、意図的または意図せずにデータを操作しにくい方法で保存している場合があります。攻撃者が、保存されたデータをリバースエンジニアリングして、グローバル ML モデルやフェデレーションラーニングの過去のラウンドに関する情報を収集できる場合があります。
グローバル ML モデルの更新からの情報の抽出。フェデレーションラーニング作業のラウンドの最中に、フェデレーションオーナーが参加組織から収集したグローバル ML モデルの更新を、攻撃者がリバースエンジニアリングする場合があります。
フェデレーションオーナーがラウンドを損なう可能性がある。侵害を受けたフェデレーションオーナーが不正なサイロを制御し、フェデレーションラーニング作業のラウンドを開始する場合があります。ラウンドの最後に、侵害を受けたフェデレーションオーナーは、不正なサイロが生成した更新と比較することで、正規の参加組織から収集した更新に関する情報を集められます。
参加組織がグローバル ML モデルを損なう可能性がある。組織は、フェデレーションラーニング作業のラウンドの最中に、不正な更新や非論理的な更新を生成して、グローバル ML モデルのパフォーマンス、品質、整合性に悪影響を及ぼす場合があります。

このセクションで説明する脅威の影響を軽減するために、コンソーシアムのすべての関係者が以下を行うことをおすすめします。

トレーニングデータの記録を調整して、最小限に抑える。
プライバシー保護メカニズムを実装する。
グローバル ML モデル、共有する ML モデル、トレーニングデータ、フェデレーションラーニングを実現するために実装したインフラストラクチャを定期的に監査する。
Secure Aggregation アルゴリズムを実装して、参加組織が生成するトレーニング結果を処理する。
公開鍵基盤を使用して、データ暗号鍵を安全に生成および配布する。
信頼できるコンピューティングプラットフォームにインフラストラクチャをデプロイする。

フェデレーションオーナーは、次の追加手順も行う必要があります。

各参加組織の ID と各サイロの整合性を確認する。
参加組織が生成できるグローバル ML モデルの更新スコープを制限する。

次のステップ

サードパーティによって配布されるアプリ用の GKE クラスタを準備する方法を確認する。
TensorFlow Federated プラットフォームにフェデレーションラーニングアルゴリズムを実装する方法を確認する。
フェデレーションラーニングの進歩と未解決の問題を確認する。
Google AI ブログでフェデレーションラーニングについて確認する。
プライバシー保護の方法で ML モデルを改善するために、Google が匿名化された集計情報を使用してフェデレーションラーニングを使用する方法を確認する。
データ保護ツールキットを使用して HIPAA の調整されたワークロードを設定する。
Google Cloud に関するリファレンスアーキテクチャ、図、ベストプラクティスを確認する。Cloud アーキテクチャセンターをご覧ください。

Google Cloud でのフェデレーション ラーニング

フェデレーション ラーニング

フェデレーション ラーニングのユースケースを実装する

フェデレーション ラーニング コンソーシアムを確立する

フェデレーション ラーニング コンソーシアムのコラボレーション モデルを決定する