Google Cloud に組み込まれたトークン化機能の利用を開始して、機密データを保護する
Scott Ellis
Senior Product Manager
Jordanna Chord
Senior Staff Software Engineer
※この投稿は米国時間 2025 年 1 月 16 日に、Google Cloud blog に投稿されたものの抄訳です。
金融やヘルスケアを含む多くの業界において、支払いカードの番号や政府発行の個人識別番号などの機密データは、保護してから使用および共有する必要があります。一般的なアプローチは、トークン化によってセキュリティ強化とリスク管理を行う方法です。
トークンとは、機密データを使用または処理する際に置き換えるための値です。元の機密情報(通常「元データ」と呼ばれます)を直接扱うのではなく、トークンを代替値として使用します。元データとは違い、トークンはスクランブルまたは暗号化された値です。
トークンを使用すると、元データの使用によって生じる現実世界でのリスクを軽減しながら、元データと同じように複数のデータセット間で値の結合や集計ができます。これは、参照整合性を維持する手法として知られています。
Google Cloud に組み込まれたトークン化機能
トークン化は、既存のシステムやワークフローへの統合が難しく、高いコストがかかる可能性がある特殊なテクノロジーだと思われがちですが、Google Cloud では強力かつスケーラブルなトークン化機能を Sensitive Data Protection サービスの一環として利用できます。この機能を使用すると、お使いのアプリケーションやデータ パイプラインで、サーバーレス API エンドポイントを呼び出し、データをその場でトークン化できます。
そのため、サードパーティのデプロイメント、ハードウェア、仮想マシンの管理なしで、トークン化機能を利用できます。さらに、このサービスは完全にリージョン化されており、選択した地域でトークン化が処理されるため、現地の規制やコンプライアンス体制に対応できます。前払い金は不要で、データ スループットに基づいて課金されるため、ビジネスのニーズに合わせて必要なだけスケーリングできます。
Sensitive Data Protection ではさらに、構造化されていない自然言語のコンテンツをインラインでトークン化できます。文の途中でもトークン化できるほか、双方向トークン化を選択すれば、(適切なアクセス権限がある限り)必要に応じてデータを元に戻すこともできます。
これにより、ログや顧客との会話をランタイム トークン化したり、生成 AI のサービング フレームワークの一部として使用したりするなど、新しいユースケースが実現できるようになります。このテクノロジーは Contact Center AI と Dialogflow サービスにも追加されており、顧客とのやり取りをその場でトークン化するためにご利用いただけます。
上記の画像は、ID(メールアドレス)を含む生の入力データと、トークン形式でこのメールアドレスを表示している、マスクされた出力データです。
BigQuery でのトークン化
Sensitive Data Protection を介したサーバーレス アクセスの他に、Google は BigQuery 内でも直接トークン化機能を提供しています。そのため、BigQuery の SQL クエリ、ユーザー定義関数(UDF)、ビュー、パイプラインでもトークン化機能を簡単に利用できます。
<value1> → <token1>
<value2> → <token2>
<value1> → <token1>
<value3> → <token3>
トークン化テクノロジーは、値を含む列全体のトークン化など、構造化データを高速かつ高スケールで処理できるように BigQuery エンジンに直接組み込まれています。生成されたトークンは、Google の Sensitive Data Protection エンジンで生成されたトークンと互換性があり、相互運用が可能です。これはつまり、不要なレイテンシやコストを発生させることなく、参照整合性を保ちながら、いずれのシステムでもトークン化とトークン化解除ができるということです。
トークンを使用して現実世界の問題を解決する
トークンは難読化でリスクを軽減しつつ、実用性と価値を保持します。次の 4 つの行と 3 つの一意の値(value1、value2、value 3)を含むテーブルを例に考えてみましょう。
ここでは、各値がトークンで置き換えられているのがわかります。「value1」には、一貫して「token1」が割り当てられています。集計を実行して一意のトークンの数を数えると、元の値の場合と同じく「3」という値が得られます。トークン化された値を結合すると、元の値を結合した場合と同じタイプの結合を得られます。
こうしたシンプルなアプローチによって、多くのユースケースが実現可能になります。
現実世界でのリスクを難読化によって軽減する
1,000 万件のユーザー アカウントに対して不正行為分析を実施するユースケースについて考えてみましょう。この場合、すべてのトランザクションが、エンドユーザーのメールアドレスにリンクされているとします。メールアドレスは、以下のようなリスクが生じる ID です。
-
メールアドレスの所有者であるエンドユーザーへの連絡に使用される可能性がある。
-
他のシステムに格納される、結合されるべきでないデータへのリンクに使用される可能性がある。
-
メールアドレスから実世界での身元が特定され、その人の ID を使って内部データに不正アクセスするリスクが発生する。
-
メール アカウントの所有者の名前など、他の種類の身元情報が漏えいする可能性がある。
該当のメールアドレスのトークンは「EMAIL(44):AYCLw6BhB0QvauFE5ZPC86Jbn59VogYtTrE7w+rdArLr」であり、このトークンは不正行為分析に必要なテーブルとデータセットのみに適用されることになっているとしましょう。このトークンを元のメールアドレスの代わりに使用して、すべてのトランザクション テーブルに含まれるメールアドレスをトークン化してから、不正行為分析を実行できます。
分析の実行中、このデータにアクセスしたユーザーまたはパイプラインには、難読化されたメールアドレスのみが表示されるので、業務を妨げることなく 1,000 万人のユーザーを保護できます。
次のステップ
トークン化は、重要なデータ運用を妨げることなく機密情報を保護できる優れた方法です。トークンを使用すると、機密データを機密性の高くないデータに置き換えられるため、データ侵害のリスクを大幅に軽減し、コンプライアンスの取り組みを簡素化できます。Google Cloud が提供するスケーラブルかつリージョン化されたすぐに利用可能なトークン化機能を使えば、インフラストラクチャの管理ではなくコア ビジネスに注力できるようになります。
Google Cloud でトークン化機能の使用を開始するには、以下をご確認ください。
-シニア プロダクト マネージャー Scott Ellis
-シニア スタッフ ソフトウェア エンジニア Jordanna Chord