Google Cloud

Cloud DLP API による機密データの厳重な管理

2018年4月26日

Google Cloud Japan Team

Google はこのほど、安全かつリアルタイムに機密データの検出、分類、編集を行えるように支援する Google Cloud のセキュリティサービス、Cloud Data Loss Prevention API（DLP API）を正式リリースしました。

機密データを適正に処理するにあたって第一歩となるのは、データワークロードのどこに機密データがあるかを把握することです。これは、データの厳重な保護に役立つだけでなく、機密情報の管理ミスが深刻なコスト増につながる今日の規制環境のもとでは不可欠な要素となっています。

DLP API は、クレジットカード番号、社会保障番号、氏名のような個人識別情報（PII）などの機密データを識別するのに役立つ、柔軟かつ堅牢なツールです。機密データの在りかがわかったら、リダクションやマスキング、トークン化などのテクニックを使って機密データを特定できないようにしなければなりませんが、DLP API はそのための機能を提供します。こうした機能は、機密データを分析や顧客サポートなどの重要な業務に活用しつつ、同時に保護することに役立ちます。

しかも、DLP API はクラウドかオンプレミスかを問わず、ほぼあらゆるワークロードで使えるように設計されているため、API にデータを渡して機密データの検出や非特定化の機能を利用するのは簡単です。

GDPR（一般データ保護規則）といったプライバシー保護規制への準拠という意味でも、個人データの検出や保護に有用なツールは重要です。DLP API は、機密性の高いワークロードでも使用できるようになっており、Google Cloud のセキュリティおよびコンプライアンス標準によってサポートされています。たとえば、DLP API は Google Cloud HIPAA BAA（Business Associate Agreement）の対象サービスに含まれており、PII の保護のために医療産業向けソリューションと併用できます。

既存のワークロードに DLP を導入することがいかに簡単かをおわかりいただけるように、Cloud Storage にアップロードされたデータの分類を DLP API と Cloud Functions で自動化する方法をまとめた新しいチュートリアルも用意しました。この方法では、制限の厳しいバケットへの移動など、機密ファイルの処理方法を判断するにあたって DLP の機密データ検出機能を使用しています。

以上のように、DLP API は機密データを管理するうえでとても便利なツールです。しかも、今すぐ無料で 1 GB までのデータで試すことができます。以下では DLP API の機能を詳しく見ていきましょう。

定義済み検出器とカスタム検出器による機密データの柔軟な特定

DLP API は、PII や Google Cloud Platform（GCP）サービスアカウント情報などの機密データ用として、機械学習、パターンマッチング、数学的チェックサム、コンテキスト分析などさまざまなテクニックを駆使した 70 種以上の定義済み検出器（InfoType）を提供しています。

また、次のツールを使って独自のカスタム検出器を定義することも可能です。

辞書 : 新しい機密データタイプを定義したり、定義済み InfoType を補完したりします。
正規表現パターン : 独自パターンを見つけて、機密データのデフォルトの可能性スコアを定義します。
検出ルール : 近隣のコンテキストに加えて、「銀行取引」や「納税者」、「パスポート」などのホットワードに基づき、可能性スコアを増減させるルールを定義して、カスタム辞書や正規表現パターンを強化します。

どこからでもデータをストリーミング

機密データをうっかり収集することのないサポートチャットアプリを作りたいとか、オンプレミスや別のクラウドプロバイダに格納されているデータを管理したいとしたらどうしますか？ DLP API の “content” モードを使用すれば、ほぼあらゆる位置のデータをストリーミングすることができます。これは、大規模バッチを使用したリアルタイムでのデータ分類や動的な非特定化に便利な機能です。content モードにより、格納や表示の前にデータをスキャンし、どのデータをどこにストリーミングするかを制御することができます。

ストレージサービスにおけるネイティブな機密データ検出

DLP API は、Cloud Storage、Cloud Datastore、BigQuery でのデータ分類をネイティブでサポートします。DLP API が参照する Cloud Storage バケットや BigQuery テーブルを指定すれば、あとは自動的に処理されます。DLP API は次の機能に対応しています。

定期的なスキャン : 毎日または毎週のスキャンジョブ実行のトリガリング。
通知 : ジョブを起動し、終了時に Cloud Pub/Sub 通知を受け取れるようにします。Cloud Functions を使ったサーバーレスワークロードで重要な意味を持ちます。
Cloud Security Command Center ^Alpha との連携。
SQL データ分析 : DLP スキャンの結果を、指定した BigQuery データセットに書き込み、SQL の機能を使ってスキャン結果を分析します。Google Data Studio でカスタムレポートを作成したり、指定したデータ可視化もしくは分析システムにデータをエクスポートしたりすることが可能です。

https://storage.googleapis.com/gweb-cloudblog-publish/images/dlp-api-ga-2lq5i.max-1000x1000.max-1000x1000.png

DLP スキャン結果の集計レポート

フリーテキストと構造化データの同時的なリダクション

DLP API を使用すると、構造化されていないフリーテキストをストリーミングして、強力な分類エンジンによってさまざまな機密データを見つけ出し、ニーズに合わせてリダクションできます。表形式データをストリーミングすれば、レコードタイプもしくは列名に基づいてリダクションすることもできます。また、データの完全性と整合性を保ちながら、同時に両方を行うことも可能です。たとえば、コメントフィールドと構造化データの列の両方に分類された社会保障番号から、同じトークンまたはハッシュを生成することができます。

フルセットの非特定化ツール

DLP API は、単純なリダクションだけでなく、書式を保持した高度なトークン化などさまざまなテクニックに対応しており、データに含まれる機密要素の有用性を維持したままでのリダクションが可能です。

こうしたテクニックの一部を紹介しましょう。

変形タイプ	処理内容
置換	入力値を InfoType 名かカスタム値に置き換えます。
リダクション	値を除去することでリダクションします。
マスキングまたは部分マスキング	指定された数の指定された文字で入力値を置き換え、一部または全部をマスキングします。
暗号化ハッシュによる仮名化	指定された暗号鍵で生成された文字列で入力値を置き換えます。
フォーマット保持トークンによる仮名化	FFX モード操作による FPE（フォーマット保持暗号化）を使用して、同じ長さのトークンもしくはサロゲート値で入力値を置き換えます。
バケッティング	“バケット”、もしくは入力値が収まる範囲で入力値をマスキングします。
日時データ抽出	日付やタイムスタンプの一部を抽出もしくは保存します。

DLP API は、JPEG や PNG などの標準的なビットマップイメージにも対応しています。OCR（光学文字認識）技術を使用してイメージ内のテキストを分析し、その結果を返したり、機密情報をブロックする形で新しいイメージを生成したりすることができます。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/DLP_API_Making_V012B252812529am2e.GIF

k- 匿名性、l- 多様性による再特定化リスクの計測

機密データは、社会保障番号やクレジットカード番号のようにすぐに見分けがつくものばかりではありません。時には、特定の値、あるいは値の組み合わせによって個人が特定できてしまうことがあります。たとえば、従業員の大半は肩書フィールドの値だけでは特定できませんが、CEO のように 1 人しかいない肩書を持つ人を特定することは可能です。社名、年齢、郵便番号などのフィールドと組み合わせると、その肩書を持つ人が 1 人に絞られることもあります。

この種の準識別子について注意を喚起するため、DLP API には一連の統計的リスク分析指標が用意されています。たとえば、k- 匿名性はこの種の特異値のグループを検出し、データのさらなる非特定化のためにやるべきこと（行の削除、フィールドのバケッティングなど）についての貴重なヒントを提供します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/dlp-api-ga-5js1m.max-700x700.max-700x700.png

データセットに含まれる特定可能な個人を k- 匿名性で検出

クラウドエコシステムにおけるワークロードと DLP API の連携

DLP API は柔軟かつスケーラブルに作られており、さまざまなワークロードと連携するための機能を備えています。

DLP テンプレート : テンプレートを使えば、データをどのように検査し、変形するかを定義して保存することができます。あとは、API 呼び出しやワークロードでそのテンプレートを参照するだけです。テンプレートは、新しい API 呼び出しやコードをデプロイし直さなくても更新できます。
トリガー : たとえば毎日、毎週、毎月といった形で定期的にデータをスキャンするジョブをセットアップできます。
アクション : 大規模なスキャンジョブが終了したときに Cloud Pub/Sub で通知を送るように DLP API を設定できます。これは、サーバーレス、イベント駆動型のエコシステムで機能する堅牢なシステムを構築するうえですばらしい方法です。

DLP API は、GCP の新しいセキュリティおよびデータリスク管理プラットフォームである Cloud Security Command Center（Cloud SCC）^Alpha とも連携します。Cloud SCC は、データを収集し、脅威を見つけ出して、脅威がビジネスに打撃を与えたり損失を生んだりする前に対処できるようにします。

DLP API を Cloud SCC で使用すれば、機密データや規制対象データがどのストレージバケットに含まれているかを検出でき、意図しない漏洩の防止や、“need-to-know” の原則（認められたビジネスプロセスで必要最小限のデータだけを利用、参照すること）に応じたアクセスが可能になります。

Cloud SCC ^Alpha のアルファプログラムに参加を希望される方は、こちらからお申し込みください。