著者に聞く: Data Governance-The Definitive Guide
Google Cloud Japan Team
※この投稿は米国時間 2021 年 3 月 18 日に、Google Cloud blog に投稿されたものの抄訳です。
本日は、O’Reilly Books から新しく出版された『Data Governance: The Definitive Guide』の著者にお話を伺います。Evren Eryurek は Google Cloud のプロダクト管理ディレクターで、その経験はデータ ガバナンス、データのカタログ化と検出、データ マーケットプレイスなど多岐にわたります。Uri Gilad は、データが Google Cloud Platform(GCP) 内のどこに存在していても、GCP のお客様が統一された方法でデータ ガバナンス ポリシーを適用できるようにする適切なコントロール、管理ツール、ポリシー ワークフローを作成するための部門を越えた取り組みの陣頭指揮を取っています。Anita Kibunguchy-Grant は Google Cloud のプロダクト マーケティング リードです。以前には Google Cloud におけるデータ セキュリティとガバナンスの市場展開戦略を担当していました。Jessi Ashdown は Google Cloud のユーザー エクスペリエンス リサーチャーで、世界中のお客様とともにユーザー研究を実施しています。また、その研究で得られた所見やフィードバックを活用して、ユーザーのニーズに最適な Google のデータ ガバナンス プロダクトの情報を提供したり、プロダクトの方向付けを行ったりするなどの業務を担当しています。Valliappa "Lak" Lakshmanan は、データ分析および AI ソリューション担当ディレクターです。この部門では、お客様のポートフォリオ全体にわたってデータ ガバナンス ソリューションを取りまとめています。
著者に聞く: Google Cloud プロダクト管理ディレクター Evren Eryurek
Q: Evren、この本を執筆しようと思ったきっかけは何ですか。
Evren: さまざまな業種が次々にクラウドベースのソリューションを求めるようになりましたが、それに伴って「Google ではどのようにデータを管理しているのか。共有できるベストプラクティスはあるか」という問いをよく受けるようになりました。そこで、Uri と Anita と私は、多くの人に重宝されるであろうシンプルな手順、いくつかの例およびベストプラクティスを示した ホワイトペーパーを発行すれば、クラウド業界にとっても、ソリューションを積極的に探している潜在顧客にとっても役立つだろうと思いました。
あるオンライン雑誌に、そのホワイトペーパーの概要が掲載されていました。O’Reilly の Jessica Haebrman 氏がその記事を見て、その内容を書籍にしたらどうかと提案してくれたのです。私は修士論文と博士論文を書いた経験があり、こうした作業がどれほど大変で時間の要する作業か知っていたので、速攻で断ろうと思いました。ただ、Haebrman 氏はそう簡単に諦めてくれませんでした。そのため、私と一緒に取り組んでくれるチームがあるのならばやりましょう、ということになりました。
ホワイトペーパーの共著者である Uri と Anita 以外でチームに参加してもらいたい人と言えば、間違いなく Lak と Jessi でした。彼らは Google Cloud におけるデータ ガバナンスの戦略と可能性の運用という分野で極めて大きな役割を担っており、分野、喫緊の課題、それらを乗り越えるための方法について膨大な知識を持っていたからです。Lak がデータ ガバナンス ソリューションを構築していたのは、ガバナンスが有効性を発揮するにはオンプレミスとその他のクラウドにまたがる必要があったためです。また、彼はお客様によるデータ ガバナンス戦略の導入にも携わっていました。 Jessi Ashdown は、データ ガバナンスのユーザー インターフェースを考案するために、お客様のデータ資産とガバナンスの対象について調査していました。この調査は知見の詰まった宝の山であり、データ ガバナンスのスペースがどこへ向かうのかを示す優れた道標でした。
まさに最適な人材によるドリームチームの結成であり、私もその一員としてこの本の著者となることを心から誇らしく思っています。メンバーはそれぞれが自分にしかない視点、経験、フレーバーを持ち寄り、それを執筆プロセスや最終的な出版物そのものに加えてくれました。このことは私にとって一生の宝物です。
Q: 書籍を出版するきっかけとなったホワイトペーパーと記事についてですが、中にはご自身の GE ヘルスケアでの経験から得た教訓もあるのではないでしょうか。
Evren: そのとおりです。私は長い間ヘルスケア業界に身を置いていました。その間、医療機器から電子医療記録(EMR)、画像処理ソリューションまで、さまざまなソフトウェア ソリューションを提供していました。
あの業界で素晴らしいと思うことの一つに、医療従事者または医療技術提供者のひとりひとりに対し、保護対象保健情報(PHI)データの取り扱いの重要性についてトレーニングを行い、情報を提供し、認識させている点が挙げられます。従業員に対するトレーニングや、適切なプロセスの構築に使われる適切なツールの提供が、その人がヘルスケア業界でどのような役割を果たすかに関わらず、その全員がこのエコシステムの一員になるうえで役立っていました。最終的な目標はその誰にとっても、患者にサービスを提供してヘルスケアを行き渡らせることです。ヘルスケア業界におけるデータ ガバナンスおよびデータ規制の取り扱いは、この考え方に基づいており、そのため一歩先を進んでいると言えます。
ヘルスケア業界には厳しい規制がありますが、それにもかかわらず、最も難しい医療の問題を共同で解決するための方法を常に見出してきました。それぞれの担当者が持つ重要なデータを封じ込めるのではなく、非匿名化技術を適用することでデータ本来の価値を取り出せるようになり、安全かつ管理された方法で共有できるようになったのです。このことにより質の高い結果が得られるようになり、さらにコホート分析が確立され、集団の健康維持管理を提供できるようになりました。また、ゲノミクス データに共同で取り組むことによってパーソナライズされたケアがより良いものになり、難しい癌の症例に対処する方法が見い出されるようになっています。さらに、各分野の世界中の専門家に腫瘍検討会(トゥーマーボード)のメンバーとしてオンライン上で集まってもらうことで、想定できる限りで最も珍しい症例にも診断を下し、治療できるようになりました。
欧州諸国で一般データ保護規制(GDPR)が立法化されたとき、自社のデメリットとなってしまうような反応を見せた会社も多くありました。いくつかの企業が解決策としてすべてを消去するという手段を取ったが、一部データが元に戻せないことに気づいたときにはすでに時遅し、といったお話を目にした方も多いでしょう。こうした企業は、自分たちがデータ ガバナンスを取り扱うには、プロセスを構築し、ツールを持ち寄り、自社の従業員をトレーニングするべきであるということを認識しました。私は、この本を執筆して自分たちの経験を共有することで、それぞれの業界の中でこれらの規制や類似の規制に対応しようとしているすべての人々の役に立つことを願っています。
データを封じ込めることや削除することは解決策にはなりません。適切なデータ ガバナンス プログラムを構築することなのです。これが私がヘルスケア業界で目にしてきたことであり、すべての業種に当てはまるものだと確信しています。
Q: Uri、データ ガバナンスはどこに向かっていると思いますか。
Uri: セキュリティとガバナンスはものの考え方の一つです。「正しいセキュリティを確保する」ためにはいくつかの原則があります。そのうちの一つは、書籍の中でも強調していますが、エンドユーザーとポリシーの実施間の「摩擦」を最小限に抑えることです。読者には「データが人のために働く」という概念を浸透させることが望ましく、「データはしまい込んでおくべきもの」という発想に陥らないようにしたいと考えています。ガバナンス プログラムがどのようなものであっても、データ ガバナンスに摩擦がなく、幅広くアクセス可能で、同時にデータの安全性が確保され、不正使用がなければ、成功の兆しが見えてくるでしょう。
私たちはアーリー アドプターという立ち位置にあると思います。データ ガバナンスを行う企業は少なく、大手のクラウド プロバイダのポートフォリオには包括的なデータ ガバナンス ソリューションは含まれていません。これは今後、必然的に変わっていくことになり、プライバシー、セキュリティ、データ品質、データのカタログ化に関して標準化された一連の機能が見られるようになります。また、幅広いエンドツーエンドかつプラットフォームネイティブなソリューションへ継続的な投資も行われるようになるでしょう。幸いなことに、その前触れと思われる傾向がすでに見えています。
これらの標準化された一連の機能がクラウド プロバイダから提供されるのか。異なるクラウド同士で提供されている機能の相互運用が可能か。複数のクラウドおよびオンプレミスをまたいでツールを提供するエンティティによってこの標準化が促進されるのか。現時点では、これら問いへの答えはいずれもはっきりしていません。これについては、クラウドのプラットフォームは本来持っている機能を提供しつつ、複数のクラウドツールやハイブリッド型のクラウドツールに接続するという仕様の組み合わせになるのではないかと考えています。Google Cloud では、最初のアプローチは例えば Data Catalog で、第二のアプローチは互いに連携している Informatica や Collibra などのパートナーですが、これら 2 つの相互性はまだ発展初期にあり、現在も進化の途中です。
Q: データ ガバナンスは間違いなく、進化中の分野ですね。Jessi、ユーザーのデータ ガバナンス環境におけるギャップについて何度も耳にしていると思います。このことについて教えていただけませんか。
Jessi: 戦略的クラウド カスタマーとお話をする機会のある身ですが、過去数年間でガバナンスに関する優先度やトレンド、重要なポイントが推移していく様子を見てきました。私たちがこの分野におけるお客様のニーズについて初めてリサーチしたとき、限られた主要な機能を変えるだけで GDPR の遵守は可能だろうと仮定していました。しかしながら、データ管理の領域全体が、コンプライアンスの確保と日常的な分析とセキュリティの両面において大きな問題点になることがわかりました。
聞き取り調査では、こうした状況のギャップについて耳にする機会が多くありました。これらの多くは本書でも触れていますが、適切なツールがない、適切な担当者がいない、すべてを取りまとめる適切なプロセスがないといった内容です。本書では、これら主な課題の単なる焼き直しではなく、これら領域がどのように重要なのか、なぜ重要なのかといった説明や、企業の規模や予算と関係なく実現できる、実際的で実行可能なストラテジーについても述べています。
私の目に一貫して見えていたものの一つが、成功するにはどんな企業もその規模や予算に関わらず、こうしたフレームワークを完璧に実施する必要がある、と仮定するデータガバナンス フレームワークでした。調査中、多くの(実のところかなりの)企業がこうしたフレームワークを正確に実行する手段を持っておらず、それ故に、データのラングリング処理や保護の方法だけでなく、より良い事業判断のために活用するための方法もわからなくなっていることが、痛いほど伝わってきました。このような企業ダイナミクス、そして企業ガバナンス戦略の決定だけでなくその実施にも関わる人々を理解することで、私たちも本書に親しみを持ってもらい、そのストラテジーが実現可能となるような独自の視点を得ることができました。
Q: Lak、あなたは本書の中で、データ ガバナンスとは主にデータの信頼性を高めることであると述べています。これについて説明していただけますか。
Lak: 私は、データ ガバナンスが重荷になり、データを使うための代償と化す必要はないと考えます。データ ガバナンスはむしろ、お使いのデータの信頼性を確保するためのベスト プラクティス一式として考えるべきです。データ ガバナンスは実施することでデータ品質にプラスの影響をもたらします。お使いのデータを組織全体で検出できるようにすることで、信頼できる単一の情報源が確立されます。データ保護と監査ログの主なメリットは、ユーザーが分析や機械学習モデルで使用するいかなるデータもそのクリーン性が確認され、また、いかなる悪意のある変更が変更実施後でも検出できるという点が挙げられます。
データ プログラムを計画する際のデータ品質は絶対に不可欠です。組織では、自らのデータ品質を過大評価し、データ品質が低い場合の影響を過小評価することがよくあります。データのライフサイクル、コントロール、使用を管理する同じプログラムを活用することで、データ品質を管理でき、また、データ品質が低い場合の影響と回答について計画を立てることが可能です。そのため、組織のデータを中心とした変革ではデータ ガバナンスが重要な部分を占めます。
Google Cloud チームは、さらにデータを中心とした体制に移行している何百人ものお客様と連携しています。これはお客様に判断基準とするよう促している点のひとつでもあります。もちろん、私たちはこの働きかけを実現するためのお手伝いもします。その際は、BeyondCorp ゼロトラスト、Data Catalog、BigQueryの変更不可の監査ログのような機能、Dataflow と Data Fusion のリネージ トラッキング、そして Data Loss Prevention API などの事前に組み立てられた AI ツールなどのデータ ガバナンス ソリューションが役立ちます。
Q: これらに Google Cloud はどのように当てはまるのでしょうか。
Anita: データ ガバナンスは、データの 3V(速度、種類、ボリューム)の増加にあわせ、その進化を継続しています。3V は確かにありきたりな表現ではあります。しかし、変化の本質を比較的上手く捉える表現でもあります。そして規制もまた、新たな規制の追加や既存の規制の更新という形で進化を続けています。これにより、データ ガバナンスの役割も同じように複雑になり、際限なく続いていきます。組織には、すべてを把握して取り仕切り、規制を遵守して、ガバナンスのメリットが得られるようにデータを活用することが求められます。そんな状況に Google Cloud はどのように当てはまるのか。
ビッグデータは Google の DNA に刻まれている、という話を聞いたことがあると思います。Google では、何十億ものユーザーのためにプロダクトを組み立てており、その実績があります。お客様のためにこうしたプロダクトに命を吹き込むことで、Google Cloud サービスのバックボーンが形成されます。Google では、ハードウェア、サービス、ユーザー認識、データ保管、インターネット通信、真の多重防護を提供するための安全を考慮した設計のインフラを提案することから始めています。常に最新の規制に従い、独立機関によるセキュリティ、プライバシー、コンプライアンス管理に関する監査を定期的に実施しています。これは、お客様の規制やポリシーに関する目標の達成にも貢献します。また、機能が組み込まれた形のサービスを提供しているため、お客様はご自身の事業に専念できます。たとえば、Google ではデータ移動時や静止時の暗号化を提供してます。これによって、ユーザーのデータはデフォルトで常に保護されます。お客様は、細部にわたるアクセス制御を可能にする Cloud IAM と、中央管理されたクラウド リソースの可視性を活用できます。最後に、Google は透明性を通じて信頼を得られるように努めます。セキュリティに対するアプローチについては、具体的な信頼原則を規定し、遵守しています。Google では、セキュリティとガバナンスが複雑で時間を要するものであると認識しており、お客様の信頼できるパートナーであり続けるため、こうした方法を活用しています。
Q: この書籍による収益は、すべて「ネイチャー コンサーバンシー」に寄付されます。なぜこの団体を選んだのですか。
Lak: 著者が多く、さらにロイヤルティを非営利団体に寄付したいと考えた場合、非営利団体を選択するにあたって重要なのは、政治や宗教に偏りすぎていないことです。この制限の中で、自分たちの興味関心と一致する団体を選びたいと考えました。私たちは全員がアウトドア派です。地球上で最高の場所を未来の世代のために残しておくことは、私たちにとって大切なことです。ネイチャー コンサーバンシーでは、環境問題専門家と地域の企業とを積極的にコラボレーションさせるという興味深いアプローチを採用していて、規制に頼らない革新的な手法がとられています。データ ガバナンスと分析のトピックに近いところでは、自然ベースのソリューションと呼ばれるネイチャー コンサーバンシーによる新しい取り組みがあります。これは、水のインフラを提供することによる自然の機能のメリットを定量化するものです。このように、包括的で革新的であることと、データ解析方法を環境保護に適用しているから、ネイチャー コンサーバンシーを選択しました。
環境保全と学習の継続
データ ガバナンスはそもそも複雑です。ですが、このインタビューを通じて、Google に在籍する数名の専門家から知見を獲得し、Google のアプローチの原動力となる主要な信条のいくつかに触れていただけたらと願っております。もちろん、こうした知見を含めたさらに詳しい内容は、新しく発刊された書籍 Data Governance: The Definitive Guide に記載されています。その他にも、この書籍のきっかけとなったベスト プラクティスのホワイトペーパーをぜひご参照ください。また、GCP ポッドキャストに登録していただければ、2021 年 3 月 31 日にオンエアされる「Data Governance with Jessi Ashdown and Uri Gilad」の視聴も可能です。本稿をお読みいただきありがとうございました。