Cloud DLP のデータ変換でデータを保護
Google Cloud Japan Team
※この投稿は米国時間 2021 年 3 月 12 日に、Google Cloud blog に投稿されたものの抄訳です。
移動中、保存時、使用中のデータを保護する方法として最初に思い付くのが、データ検出、そしてデータ損失の検知と防止です。保護目的でデータの変換や変更を即座に思い浮かべる人はほとんどいません。
しかし、それこそがデータ損失を防止するための強力かつ簡単な方法なのです。Google Cloud のデータ セキュリティ ビジョンには、変換によるデータ保護が含まれています。Google Cloud の DLP サービスに高度なデータ変換機能が用意されているのもそのためです。
では、データ保護に使えるデータ変更手法とユースケースにはどのようなものがあるのでしょうか。
センシティブな要素を削除
まずは簡単な例からご紹介します。支払いカードのデータ保護と PCI DSS の遵守を実現するうえで最善の方法は、データを削除することです。収集した機密データを即座に削除する(もしくは最初から一切収集しない)ことで、暗号化やデータのアクセス制御と削除にかかるリソースを節約し、データの漏洩や盗難に関わるリスクを軽減するだけではなく、リスクそのものをなくすことができます。
一般的には、データの削除はデータの最小化を実践する方法の一つでもあります。攻撃者の標的となるデータを減らすことは、1980 年代から 2020 年代に至るまでなおも有効なセキュリティのベスト プラクティスの一つであり、同時に GDPR の基本原則にも数えられるコンプライアンス要件でもあります。
当然ながら、削除することができない機密データにはさまざまなタイプがあり、企業秘密や病院の患者情報にはこの戦略を適用できません。しかし、変換によってデータを保護してセキュリティ、コンプライアンス、プライバシーの各ユースケースに対応できる場合も多くあります。
多くの場合、センシティブな要素や規制対象要素を削除してもデータの価値が損なわれることはありません。たとえば、カスタマー サポートのチャットログは、間違って共有された支払いカード番号を削除した後でも十分に役立ちます。同様に、医師は社会保障番号(SSN)やカルテ番号(MRN)を見なくても診察でき、また、銀行口座番号がなくても取引トレンドの分析は実行できます。このように、センシティブな個人情報や規制対象情報がまったく重要ではない場面が数多くあります。
データを削除してもコミュニケーションの目的が果たせる場面においても、データ変換が役立ちます。たとえば、サポート担当者は顧客の氏名を知らなくてもアプリの使い方をサポートできます。
さらに、Google Cloud の DLP システムでは、AI のトレーニングに使用するデータセットをクリーンアップできるため、個人データや機密データを公開することなく AI システムの学習を実施できます。AI のトレーニングに使用する前にデータ ストリームから氏名を自動的に削除することさえ可能です。これは、従来の DLP にはない機能です。
この手法は構造化データ(データベース)と非構造化データ(メールやチャット、画像キャプチャ、音声記録)の両方に採用できます。攻撃者の標的になったり、規制の対象になったりする「有害な」要素を削除することでリスクを軽減しながら、データセットのビジネス上の価値を維持します。
DLP のデータ変換は、データを削除するだけではありません。このアプローチにおいて重要になるのが、さまざまな形式のデータ マスキング(静的と動的の両方)です。コールセンターの従業員に表示する情報を制限するなどして、ビューから機密データを削除するだけが DLP の機能ではありません。非構造化テキスト、構造化された表形式データ、画像など、保存データやストリーミングされたデータに Cloud DLP を使用できる点も見逃せません。Speech-to-Text などのサービスと Cloud DLP を組み合わせることで、音声データの削除や音声文字変換を行うことさえ可能です。
機密データが部外者の手に渡るリスクを軽減することが、すべての DLP 戦略の最終目標です。単純なデータ保護とは目標がやや異なるうえに、カバーされる範囲も広くなっています。データの保持に伴うリスクを軽減できれば、データ損失のリスクも軽減することができます。
センシティブな要素を安全なものに置き換える
機密データのごく一部さえ削除できない場合もありますが、トークン化によってそれらを安全な要素に置き換えることができます。トークン化もGoogle Cloud DLP に用意されている機能の一つです。
元の状態に戻せるのがトークン化のメリットの一つです。トークン化によってリスクが軽減されるだけでなく、PCI DSS をはじめとする規制(置換対象データによって異なる)を確実に遵守できます。保存中または表示中のデータ内のセンシティブな要素をトークン化することでリスクを軽減します。保険会社では、記録を確認するために収集および使用する顧客の運転免許証番号を、他の場所で表示する際にトークンに置き換えることができます。
分析のために 2 つのデータセットを結合する必要がある場合もトークン化が大きな効果を発揮します。この場合の結合に最適なのが、社会保障番号などのセンシティブなデータです。たとえば、患者記録データベースをラボの結果データベースと結合したり、ローン申し込みを財務記録と結合したりする場合、同じアルゴリズムとパラメータを使って両方のデータセットのセンシティブな列をトークン化し、機密データを公開することなく 2 つのデータセットを結合できます。
別の例として不正行為の分析もあります。DLP を使って、BigQuery に保存されたデータから国際モバイル サブスクライバー ID(IMSI)番号を削除できることを Google Cloud の事例紹介で説明しています。また、不正行為が確認され、調査が実施される際にはデータを後から復元できます。なお、この事例では非常に大きな量のデータが処理されています。
従来、トークン化と DLP は別々のテクノロジーとして扱われてきたはずでは、と指摘される方もいらっしゃると思います。Cloud DLP は、これら 2 つの機能を含むさまざまな機能を単一のスケーラブルなクラウドネイティブ ソリューションにまとめた、包括的なシステムになっています。そのため、データセットのビジネス上の価値を維持しながら、リスク軽減においてより大きな成果を上げることができます。
個人データの変換
データ損失が意味するのは、それが犯罪者の手に渡って不正行為に使用される可能性があるというだけではありません。個人データの漏洩によるプライバシー侵害やポリシー違反などの状況に陥るリスクもあります。つまり、個人情報の損失には、セキュリティとプライバシー両方のリスクが伴います。
このため、DLP のデータ変換はプライバシーとセキュリティ両面において、価値のある手法となります。たとえば、共通の顧客のトレンドを分析するためにパートナーとデータを共有している組織があります。年齢、郵便番号、役職などのユーザー属性を一般化することで、身元情報の一部から個人を特定されるリスクを軽減できます。この手法は、政府機関が収集した市民データと大学が実施した医療研究などで効果を発揮します。
また、旅行の日程や購入日、カレンダー情報など、第三者が位置を推測できる日付を含むトランザクション データをユーザーが共有する場合もあります。Cloud DLP では、顧客ごとに日付をシフトする日付シフト手法によってデータの不正使用を防止することで、実際の日付をわからないようにしながら行動分析を実行できるようにしています。繰り返しになりますが、こうした機能は従来の DLP システムには搭載されていません。
こうした手法の多くは、元の状態を復元することができず、データセットの要素の変更と破棄も元に戻せません。しかし、特定のビジネス ユースケースに有用なデータセットの価値を維持しながら、データについて回るリスクを軽減しています。暗号化ときめ細かいアクセス制御に要するコンピューティング リソースを無駄にすることなく、セキュリティとプライバシーのリスクを軽減しながら、データセットから価値を引き出す能力を維持したいチームにとって、DLP は十分検討に値すると言えます。このアプローチを採用することで、リスクと利便性のバランスを常に最適な状態に保つのがはるかに容易になります。
Google Cloud DLP では、こうした戦略をすべて採用できます。DLP の今後については、コンプライアンスのみでなく、今日のクラウド中心の世界に合わせて DLP を再考をご覧ください。
Google Cloud をご利用中のお客様は、こちらから DLP の利用を開始できます。
-ソリューション戦略担当責任者 Anton Chuvakin
-Google Cloud プロダクト マネージャー Scott Ellis