データ分析

Redivis、BigQuery を活用して研究データへのアクセスと共同作業を容易に

GCP Data Analytics.jpg

※この投稿は米国時間 2020 年 10 月 15 日に、Google Cloud blog に投稿されたものの抄訳です。


収集したデータを理解することは、世界の動向を見極め、答えを見つけ出すうえで欠かせません。しかし、データのストーリーが語られることはほとんどありません。大規模なデータセットは、サイズ、セキュリティ上の制約、複雑さが原因で、研究団体間での共有が困難です。データセットにアクセスできたとしても、それをクエリするために必要なツールを使用するには、深い技術的な知識が必要になることがよくあります。このような理由から、Redivis は Google Cloud と提携して、高等教育機関の研究データをより簡単に分析でき、これまで以上にアクセスしやすいものにしようと考えました。

Redivis が目指すのは、摩擦のない「データコモンズ」の構築です。すなわち、研究者が研究を裏付けるための大規模なデータセットを検索し、アクセスをリクエストして、クエリを実行することができる場所を構築することです。この目標の実現に向けて、Redivis は従来のデータ配布プロセスの見直しに着手しました。

データへのアクセスを改善するうえでの課題

Redivis は最初に、チームの最大の問題を理解するために、何十人もの研究者にインタビューを行いました。研究者の多くは、データセットに含まれる情報が研究に役立つかどうかを知る以前に、新しいデータセットを発見するのが難しく、そのデータにアクセスし作業するのに必要な手順の数が多いと回答しました。さらに、データ管理者はデータセットが活用されることを望んでいますが、データ セキュリティに関して懸念を抱いています。

機密データを大量に保管する場合には、適切なセキュリティ管理が不可欠です。Redivis は、データの安全性を確保するために、データセットへの透過的な階層型アクセス システムを開発しました。各研究者は、データセットのドキュメントや変数、サンプルのほか、完全なデータへの個別アクセスをリクエストできます。これにより、アクセス申請を提出することなくデータセットのユーザビリティを評価することが可能になります。さらに管理者は、研究者が各自のアクセスレベルに応じて異なるデータセットを使用して組み合わせる方法についてルールを設定できます。

Redivis は、同社のプラットフォームを Google Cloud のセキュリティ インフラストラクチャ上に構築しています。これにより、データの暗号化やセキュリティ キーの管理を行い、運用面と物理面両方のセキュリティ レイヤでデータセットを保護できます。同社は、詳細な監査ログ(Google Cloud Logging によるサポート)やアプリケーション レベルの堅牢なセキュリティ管理と組み合わせることで、許可されたデータのアクセスと使用のみが行われるという安心感をデータ所有者に与えることができています。

データを共有してより説得力のあるストーリーを構築

たとえば、環境条件を調査する場合などに、複数のソースからのデータを結合することで、ストーリーをより完全なものに近づけることができます。過去の火災、空気質データ、公衆衛生の成果といったデータを組み合わせることにより、研究者は特にリスクの高い集団を保護するための政策方針を打ち出すことが可能になります。しかし、データセットが孤立したままであれば、イベントの相互的な影響に関する知見が得られない可能性が高くなります。Cloud StorageBigQuery などのクラウド ソリューションを活用することで、Redivis は BigQuery でホストされている一般公開データセット間のデータと非公開データセットを安全に結びつける方法を導き出し、研究者が充実した分析情報を存分に引き出せるようにしました。

Cloud Storage を使用することにより、Redivis は管理者が大量のデータをプラットフォームにアップロードしやすくしています。データレコードは、Google Cloud のサーバレスでスケーラブルなデータ ウェアハウスである BigQuery に保存されます。Redivis でデータを探索する際、研究者は既存レコードへのアクセスを申請するのに必要な手順を簡単に確認できます。承認が下りると、データベース言語がわからなくても、SQL を使ってデータをクエリにかけることができます。これで、現在の研究のコンテキスト内で分析できる管理可能なデータ サブセットを入手できます。研究者は幅広い分析ツールをこのデータ パイプラインに統合することもできます。Redivis では、データをワンクリックで Google の データポータルにエクスポートできる BigQuery の機能を使うことで、インタラクティブなデータ可視化が実現し、Python や R クライアントを通じてノートブック環境と統合できます。

BigQuery でインフラストラクチャ要件を管理することにより、Redivis は、インフラストラクチャに関連する追加ワークロードを負担することなく、データの規模を従来のテラバイト単位からその千倍のペタバイト単位にまでスケールしました。特に重要なのは、BigQuery のコンピューティング アーキテクチャが、公開データセットと制限付きデータセットの両方の数十億に及ぶレコードのリアルタイム分析を支え、分析情報を引き出す新しい方法を生み出したことです。Redivis の CEO である Ian Mathews 氏は、次のように述べています。「以前は何時間もかかっていたクエリが数秒で実行できるようになったと、研究者たちからよく耳にします。新しいデータセットを理解し、新たな仮説を追求するうえで、これがどれほど革新的であるかは想像に難くありません。」

データ アクセシビリティの今後

Redivis を利用する学術機関や研究者の数が増えるなか、同社ではデータドリブンの研究プロセスの各手順における摩擦を最小限に抑える方法を見つけようと取り組みを続けています。

データへのアクセスしやすさを改善することで研究者を支援する Redivis の取り組みについて詳しくは、こちらの動画をご覧ください。また、BigQuery の詳細についてはウェブサイトをご覧ください

-Amy Schembari