医療データ セキュリティに Cloud のツールはどのように役立つか
Google Cloud Japan Team
※この投稿は米国時間 2022 年 10 月 1 日に、Google Cloud blog に投稿されたものの抄訳です。
電子医療記録(EHR)の利用が進む中、行政機関と医療機関は健康情報が保護され、HIPAA などの主要な規制を遵守していることを電子的な方法で保証する必要があります。また、運営の規模やスピードにかかわらず、機密データを確実に保護する必要もあります。医療データの匿名化と Cloud Data Loss Prevention の 2 つのクラウド機能は、これらのニーズを満たし、健康に関するデータを安全に保つことに役立ちます。
医療データの匿名化(De-ID)
医療データの匿名化は、ネイティブ形式で自動化できます。テキストや画像を抽出する必要はありません。医療データの匿名化により、Digital Imaging and Communications in Medicine(DICOM)や Fast Healthcare Interoperability Resources(FHIR)のデータから保護医療情報(PHI)を自動的に削除できます。これにより、以下を含む複数のユースケースが実現します。
特権のない関係者と医療情報を共有する場合
複数のソースからデータセットを作成して分析する場合
機械学習モデルで使用できるようにデータを匿名化する場合
Cloud Data Loss Prevention(DLP)
Cloud Data Loss Prevention(DLP)を使用して、Google Cloud は特に機密性の高いデータの検出、分類、保護を自動化する包括的なテクノロジーのセットを作成しました。Cloud DLP は、テキストと画像で動作し、次の 3 つの主要機能を備えています。
データ検出と分類 - 150 以上の infoType(名前、住所、SSN など)の検出項目が組み込まれ、カスタム infoType を作成する機能も含まれています。また、また、Cloud Storage(GCS)、BigQuery(BQ)、Datastore の機密データのスキャン、分類、プロファイリングをネイティブでサポートしています。他のデータソース、カスタム ワークロード、アプリケーションをサポートするためのストリーミング コンテンツ API も備えています。
自動化されたデータの匿名化、マスキング、トークン化 - 機密性の高い要素のマスキング、トークン化、変換が自動的に行われるため、データをより適切に管理できます。これにより、データが分析にも利用しやすくなります。元データに含まれる機密性の高い識別子を保護しながら、データの有用性を失うことなく結合、分析、AI に利用できます。
再識別化したデータのリスク測定 - 準識別情報とは、部分的であっても特定の個人や非常に小規模なグループを特定する手がかりとなるデータ要素またはその組み合わせのことです。Cloud DLP では、k-匿名性や l-多様性などの統計指標を測定できます。これにより、データ プライバシーの現状を把握し、それを保護する能力を高めることができます。
医療データの匿名化と Cloud DLP は機械学習(ML)を活用し、機密データを特定するために使用される ML モデルは Google が継続的にこれらのモデルをトレーニングすることで、時間とともに改善され続けます。
医療データの匿名化と Cloud DLP を使用して医療データを保護する
Cloud DLP と医療データの匿名化は、医療データ セキュリティ スイートの必須部分です。医療データの匿名化と DLP API により、各機関は医療画像から個人情報(PII)や保護医療情報(PHI)などの機密情報の特定と秘匿化を自動化できるようになりました。実際、ある大規模な連邦国家の医療機関は、この目的で Google Cloud Healthcare の De-ID を使用しています。医療データの匿名化を Google Cloud Healthcare API と連携させ、400 以上の医療画像の匿名化を実行しました。匿名化を自動化することで、この機関は機密データの保護を強化するとともに、時間の節約も実現しています。
Cloud DLP はストリーミング データとストレージ データの両方の特定と匿名化に使用できます。これには主に次の 2 つの方法があります。どちらのオプションでも同じレベルで、医療データのセキュリティを確保できます。
「コンテンツ」メソッド:
データを API に直接ストリーミングする
ペイロード データは、API によって保存または永続化されない
完全な分類と DeID / 秘匿化をサポートする
事実上どこからでもデータを扱うことができる(Google Cloud、オンプレミス、または他のクラウド プロバイダ)


「ストレージ」メソッド:
Google Cloud Storage、BQ、Datastore をネイティブにサポートする
現在、分類メソッドをサポートする
BigQuery に対する詳細な検出結果を保存する
BigQuery がリスク分析(K-anon など)をサポートする


医療データの匿名化と Cloud DLP によって機密データがどのように隠されるか
Cloud DLP は、動的なマスキングやバケット化などの手法を使用して機密データをトークン化するオプションを提供しています。以下の図は、Cloud DLP が電話番号をハッシュでマスキングし、メールアドレスや社会保障番号などの機密性の高い識別子を汎用カテゴリとしてマスキングした例を示しています。医療データの匿名化は、機密データの変換に関する同様のオプションを提供しています。


画像などの非構造化データにも同様のメソッドを使用できます。下の画像は、Cloud DLP で X 線画像を匿名化し、識別可能な情報を自動的に削除した例を示しています。
Google のデータ匿名化ソリューションがもたらす最大のメリットの一つは、組織のニーズに応じて匿名化機能をスケーリングできることです。プロセスを自動化することで、組織はスタッフを解放し、ヒューマン エラーのリスクを低減できます。
匿名化によって、データをより安全に維持する
データの匿名化は医療機関にとってもう一つの課題でした。医療データや HIPAA などの患者のプライバシーに関する法律の性質により、機密データの特定と秘匿化は手間のかかる作業となっています。個人情報(PII)や保護医療情報(PHI)は、多くの場合、手動によるレビューを必要とします。Google Cloud での医療データの匿名化の機械学習では、テキストベースの FHIR データと画像ベースの DICOM データの両方で機密データの特定、トークン化、秘匿化を行って、大規模に利用できるようになります。
医療データの匿名化は Google Cloud の Healthcare FHIR API と Healthcare DICOM API と統合されており、Cloud DLP 機能は Google Cloud のマネージド データ ウェアハウス オブジェクト ストレージ ソリューションである BigQuery や Cloud Storage などの Google のネイティブ サービスに組み込まれています。Google Cloud のデータ匿名化ソリューションにより、組織は機密データの漏洩リスクを低減できます。
これらの匿名化ソリューションは、行政機関や医療機関が ML の力を利用してデータに関する最大の問題を解決するにあたって、Google Cloud がどのように役立っているのかを示す一例にすぎません。これらのテクノロジーについて詳しくは、医療データの匿名化および Cloud DLP のウェブページをご覧になり、インタラクティブなライブデモをお試しください。
医療データの匿名化の利用をすぐ開始できるように、Google Cloud は入門ガイドのシリーズも提供しています。
- Chrome Enterprise ソリューション アーキテクト Jeffrey Vasquez