Analytics Hub のご紹介 -- 簡単、安全、スケーラブルにデータ分析を共有
Google Cloud Japan Team
※この投稿は米国時間 2021 年 5 月 26 日に、Google Cloud blog に投稿されたものの抄訳です。
組織の分析戦略において、他の組織とデータを共有、交換できることは極めて重要であると考えるお客様が増えています。こうした需要の高まりや得られるメリットにもかかわらず、組織間のデータ共有が難しいのは、信頼性の低いデータやプロセスが阻害要因となっているためです(Fivetran による調査結果)。さらに、セキュリティ上の脅威や個人情報保護規制の増加が、その実現をより困難にしています。
従来のデータ共有の手法ではバッチ データ パイプラインを使用しますが、これは運用コストが高く、処理に遅れて到着するデータが発生し、ソースデータに変更があると実行が失敗することがあります。また、データの複数のコピーが作成されるため、不要なコストが生じ、データ ガバナンス プロセスをすり抜ける可能性があります。さらに、サブスクリプションやアクセス権の管理といったデータの収益化に関する機能を備えていません。つまり、組織はこのような課題により、共有データを活用してビジネスを変革する可能性を最大限に発揮できていません。
このような従来の手法の限界に対処するために、Google は Analytics Hub をリリースいたします。第 3 四半期にプレビュー版として提供されるこの新しいサービスによって、組織はデータ共有の価値を活かせるようになり、新たな分析情報の獲得やビジネス価値の向上につなげることができます。Analytics Hubを利用し、以下のようなことができるようになります。
すぐに分析可能なデータセットを公開、購読(サブスクライブ)することで、充実したデータ エコシステムを構築できますデータは 1 か所で共有されるため、データ プロバイダはデータの使用方法の制御とモニタリングを同時に行えます。
Google が提供するデータを含む、価値の高い信頼できるデータアセットをセルフサービスでご利用いただけます。たとえば、 独自の Google 検索のトレンド データセットが利用可能になります。これはクエリ可能な形式になっているので、自社データと組み合わせることができます。
インフラストラクチャの構築と管理のオーバーヘッドなしに、データ資産を収益化する方法を簡単に提供します。
10 年にわたる組織間の共有の経験をもとに構築
Analytics Hub は、Google のペタバイト規模のサーバーレス クラウド データ ウェアハウスである BigQuery を基盤とした新しいサービスです。BigQuery 独自のアーキテクチャでコンピューティングとストレージを分離しているため、データ パブリッシャーはデータのコピーを複数作成することなく、必要なだけ多くのサブスクライバーとデータを共有できます。BigQuery ではサーバーのデプロイや管理が不要なため、データ コンシューマは共有データの価値をすぐに引き出すことができます。BigQuery のストリーミング機能により、リアルタイムでのデータの提供と利用が可能になります。また、BigQuery に組み込まれた機械学習、地理空間、自然言語の機能に加え、Looker、Google スプレッドシート、データポータルなど、ネイティブにサポートするビジネス インテリジェンス ツールもご活用いただけます。
2010 年のリリース以来、BigQuery には組織を超えたインプレースのデータ共有機能が用意されています。BigQuery の使用状況の指標によると、4 月の 7 日間に 3,000 以上の組織が 200 ペタバイトを超えるデータを共有したことがわかりました。この数値には、同じ組織内の部門間のデータ共有は含まれていません。
このように、BigQuery のデータ共有機能はすでに多くのユーザーに使用されていますが、この機能を使いやすくさらにスケーラブルにしたいと考えています。
データ共有のレベルを引き上げる
BigQuery でのデータ共有をより簡単でスケーラブルにするために、Analytics Hub は共有データセットとエクスチェンジというコンセプトを導入しています。データ パブリッシャーは、サブスクライバーに配信するデータのビューを含む共有データセットを作成します。次に、エクスチェンジを作成します。これは共有データセットの整理と保護に使われます。デフォルトでは、エクスチェンジは完全に非公開です。この場合、データを参照またはサブスクライブできるのはアクセスを許可したユーザーとグループだけです。また、内部エクスチェンジを作成することも、Google が提供する一般公開エクスチェンジを利用することもできます。最後に、共有データセットをエクスチェンジに公開して、サブスクライバーが利用できるようにします。
データ サブスクライバーは、アクセス権を付与されているすべてのエクスチェンジで公開されているデータセットを検索して、関連するデータセットをサブスクライブします。これにより、プロジェクトにリンク データセットが作成され、クエリの実行や自分のデータとの結合ができるようになります。サブスクライバーがデータに対して実行するクエリに応じて料金を支払うのに対し、パブリッシャーはデータのストレージに対して料金を支払います。データ プロバイダは新しいデータ、テーブル、列を共有データセットに追加することができ、サブスクライバーは追加された内容をすぐに利用できます。また、パブリッシャーは共有データに関して、サブスクライバーの追跡、サブスクリプションの無効化、使用状況の集計データの確認ができます。
Analytics Hub により、価値の高いデータセットを簡単に公開、検索、サブスクライブできるようになり、自分のデータと組み合わせて独自の分析情報を得られます。Analytics Hub で利用できるデータの種類には次のようなものがあります。
一般公開データセット: 200 を超える一般公開データセットの既存のリポジトリに簡単にアクセスできます。気象と天候、暗号通貨、医療とライフ サイエンス、運輸に関するデータなどが含まれます。
Google データセット: Google 独自の無料で使用できるデータセット。COVID-19(新型コロナウイルス感染症)コミュニティ モビリティのデータセットはその一つです。また、新しい Google トレンド データセットには、米国の 210 の地域を対象とした過去 5 年間の上位 25 件の検索語句と上位 25 件の急上昇の検索語句が含まれています。トレンドデータは組織の全ユーザーが使うことができ、お客様の関心事項についての分析情報を得られます。
商用(有料)データセット: 大手の商用データ プロバイダと提携して Analytics Hub でデータ プロダクトを提供できるように取り組んでいます。Analytics Hub によるデータ配信を検討されている皆様に、データ グラビティについてもご紹介します。この仕組みはストレージ面でのメリットをもたらし、Analytics Hub から公開したデータに対して新たな配信経路を提供します。内部データセット: 大規模な組織でのデータ共有は容易ではありません。Analytics Hub は内部データにも利用できます。たとえば、セールス エンジニアリング部門とデータ サイエンス部門で統一した顧客属性データを共有することができます。
Analytics Hub をご利用いただいているお客様・パートナー様
「Google 検索のトレンドデータは、WPP エージェンシーのデータチームにとって常に重要なツールであり続けてきました。WPP は、データの多様性は優位性であると考えます。そのため、Analytics Hub のリリースに加えて、BigQuery 内で新しいトレンド データセットを利用できることを大変楽しみにしています。世界トップレベルの創造性は、データ分析による知識と人々が検索する情報に基づくインスピレーションから生まれます。Analytics Hub がもたらす運用効率とトレンドデータを通じて得られる分析情報は注目に値するものです。」
- WPP データおよび AI 担当グローバル ヘッド、Di Mayze 氏
「Equifax Ignite は Equifax データ ファブリック内で共有されるデータ分析環境です。Google とのパートナーシップを通じて Analytics Hub と BigQuery を活用し、400 名以上の統計学者やデータモデル設計者にデータを提供するとともに、パートナーである金融機関と安全にデータを共有できることを嬉しく思います。」
- Equifax データ ファブリックおよびデシジョン サイエンス担当シニア バイス プレジデント、Kumar Menon 氏
「社内の各部門とクライアントとの間でデータや分析情報をやり取りできることは、真に革新的なデータ文化を構築するうえで極めて重要です。安全なデータ交換と分析リソースの共有に特化したアーキテクチャを備えた Google Cloud の Analytics Hub は、Deloitte のチームが業界のエコシステムにおいてクライアントのデータドリブン イニシアチブを支援するうえで、大幅な業務効率化を実現します。さらに、スケーリング、プライバシー、セキュリティに関する不安や、それぞれの管理作業の負担も最小限に抑えられます。」
- Deloitte Consulting LLP マネージング ディレクター兼米国 Google Cloud データ分析 GTM リード、Navin Warerkar 氏
「Crux Informatics は Google のパートナーとして Analytics Hub のリリースを支援し、すぐに分析可能なデータにユーザーがスムーズにアクセスできるようにします。Crux Informatics は、保有する 140 を超えるソースからの数千ものデータセットにより、Analytics Hub 上のデータへのアクセスを高速化します。そして Google Cloud のエコシステムでデータセットを提供するための、より効率的で費用対効果の高いソリューションを協力して実現していきます。」
- Crux Informatics CEO、Will Freiberg 氏
Analytics Hub の今後の対応
ここまでは Analytics Hub の第一歩にすぎません。プレビュー版、一般提供リリース、さらに先へと進むなかで、さまざまな機能を追加していく予定です。たとえば、公開とサブスクライブのワークフローや、共有データと分析アセット(Looker Blocks、データポータル レポート、コネクテッド Google スプレッドシート)の同時公開、データ パブリッシャーがデータの使用に対してクエリ制限を設定する機能を追加します。さらに Google Cloud をまだ利用していない場合でもデータを操作できるサブスクライバー向けのサンドボックス環境をデータ パブリッシャーが簡単に作成できるようにします。そして、サブスクリプション、データのアクセス権、課金の管理など、データの収益化に関する機能を Analytics Hub に導入する予定です。
2021 年第 3 四半期にリリース予定のプレビュー版にご登録ください。それまでの間は、BigQuery と組み込まれたデータ共有機能の使用方法について詳細をご確認ください。Analytics Hub への登録をご希望の場合は g.co/cloud/analytics-hub にアクセスしてください。
- Debanjan Saha, General Manager and Vice President of Engineering, Data Analytics
- Brian Welcker, Group Product Manager, Google Cloud