コンテンツに移動
セキュリティ & アイデンティティ

Cloud Storage データをさらに容易に匿名化する方法

2022年8月15日
https://storage.googleapis.com/gweb-cloudblog-publish/images/de-ID.max-2600x2600.jpg
Google Cloud Japan Team

※この投稿は米国時間 2022 年 8 月 9 日に、Google Cloud blog に投稿されたものの抄訳です。

Cloud Storage の匿名化が容易に

多くの組織は、保存データの中の機密情報を削除または難読化する効率的なプロセスと技術を必要としています。それを可能にする重要なツールが、匿名化です。NIST によると、匿名化とは、「データセットから識別情報を削除し、個々のデータを特定の個人と結びつけられないようにする」技術であると定義されています。匿名化により、情報を収集、処理、アーカイブ、配布、または公開する際のプライバシー リスクを軽減することができます。

Google は、データ セキュリティの容易な実現に向けて努力を重ねています。本日、Cloud Storage の検査ジョブの匿名化アクションが利用可能になったことをお知らせします。これにより、独自のパイプラインやカスタムコードを実行することなく、Cloud Storage のオブジェクト、フォルダ、バケットを匿名化できます。また、さらに強力なプライバシー保護の実現のため、新しい辞書置換手法も追加しました。これは、カスタマー サポートのチャットログといった非構造データを保存するような場合には特に威力を発揮します。

「検出結果の匿名化」アクション

Cloud DLP の検査ジョブにおける「検出結果の匿名化」アクションは、検査されたデータ オブジェクトの匿名化コピーを作成する、フルマネージドの機能です。これはつまり、個人を特定できる情報(PII)などのセンシティブ データを含む Cloud Storage バケットを検査し、コンソール UI で数クリックするだけで、それらのオブジェクトの秘匿化されたコピーを作成できるということです。カスタムコードを書いたり、複雑なパイプラインを管理したりする必要はありません。フルマネージドのため、割り当ての管理も不要で、自動スケーリングするからです。

https://storage.googleapis.com/gweb-cloudblog-publish/images/De-identify_findings.max-2200x2200.jpg

この新しいアクションは、以下のデータ型をサポートしています。

DLP ジョブが有効になると、データの検査が行われ、すべてのサポートされたファイルの匿名化コピーが出力バケットまたはフォルダに作成されます。

また、この匿名化アクションを、ジョブトリガーで使用して、繰り返しのスケジュールに表示される新しいコンテンツを自動的に匿名化することもできます。これは、アクセス可能にする前に匿名化する必要がある受信ファイルのために、安全なドロップ領域を持つワークフローを作成するのに便利です。

自動匿名化の仕組み

Cloud DLP は、データをビジネスに活用できるものに保ちつつ、センシティブ データを匿名化する一連の変換手法を提供しています。次のような手法があります。

  • 削除: 検出された機密値のすべてまたは一部を削除します。

  • 置換: 検出された機密値を指定されたサロゲート値に置換します。

  • マスキング: 機密値の文字列をハッシュ(#)やアスタリスク(*)などの指定された代替文字に置き換えます。

  • 暗号ベースのトークン化: 元のセンシティブ データを暗号鍵により暗号化します。Cloud DLP は、逆行または「再識別」できる変換を含む数種類のトークン化をサポートしています。

  • バケット化: 機密値をある範囲の値に置き換えることによって「一般化」します(たとえば、特定の年齢を年齢の範囲に、気温を「暑い」「ふつう」「寒い」に対応する範囲に置き換えます)。

  • 日付シフト: 機密の日付値をランダムな日数だけシフトします。

  • 時間抽出: 日付と時刻の値の指定部分を抽出または保存します。

新しい辞書置換手法

センシティブ データの要素が検出されると、辞書置換はそれを提供された単語リストの中からランダムに選んだ値に置き換えます。この変換方法は、秘匿化された出力により現実的なサロゲート値を与えたい場合に、特に便利です。  

次の例で考えてみましょう。あなたはサービス向上の一環として、カスタマー サポートのチャットログを収集しています。こうしたチャットログは、氏名やメールアドレスといった、さまざまな個人を特定できる情報(PII)を含んでいます。Cloud DLP はそれらを検出し、[秘匿化] などといった静的置換文字列によりセンシティブ データを匿名化して、第三者に見られるのを防ぎます。

この新しい辞書置換手法により、検出結果を辞書にあるランダムに選ばれた値に置き換えることができます。この手法はまた、静的置換に対して 2 つの大きなメリットを提供します。

  1. 結果の出力がよりリアルになります。

  2. 出力がよりリアルになるため、残存する名前を隠すのに役立ちます(このプライバシー匿名化の手法は「一見隠されていないように隠す方法」とも言われます)。

次に例を示します。


入力:

エージェント: こんにちは、Jason と申します。お名前を伺ってもよろしいですか?

お客様: はい、Valeria です。

エージェント: ご連絡が必要な場合があるので、メールアドレスもお伺いできますか?

お客様: v.racer@example.org です。

エージェント: ありがとうございます。どのようなことでお困りですか?

匿名化された出力:

エージェント: こんにちは、Gavaia と申します。お名前を伺ってもよろしいですか?

お客様: はい、Bijal です。

エージェント: ご連絡が必要な場合があるので、メールアドレスもお伺いできますか?

お客様: happy.elephant44@example.org です。

エージェント: ありがとうございます。どのようなことでお困りですか?


この出力をご覧になってわかるように、名前とメールアドレスはランダムな値に入れ替えられます。これにより、元の機密情報を保護すると同時に、出力をよりリアルなものにしています。これは、データをより使いやすいものにすると同時に、残存する個人を特定できる情報(PII)を「隠す」のにも役立ちます。

次のステップ:

匿名化についてより詳しくは、Google の技術ドキュメントをご覧いただくか、または Cloud コンソールStorage の匿名化をご参照ください。また、最近行われたデータの匿名化に関する Google I/O でのスピーチもぜひご覧ください。



- シニア プロダクト マネージャー Scott Ellis
- スタッフ ソフトウェア エンジニア Jordanna Chord
投稿先