Analytics Hub の概要

Analytics Hub は、堅牢なセキュリティ ポリシーとプライバシー フレームワークを使用して、組織の境界を越えてデータと分析情報を大規模に共有できるデータ交換プラットフォームです。Analytics Hub を使用すると、さまざまなデータ プロバイダがキュレートしたデータライブラリを検出してアクセスできます。このデータ ライブラリには、Google 提供のデータセットも含まれています。

たとえば、Analytics Hub を使用すると、サードパーティと Google のデータセットを使用して分析と ML イニシアチブを強化できます。

Analytics Hub ユーザーは、次のタスクを行うことができます。

  • Analytics Hub のパブリッシャーである場合は、パートナー ネットワークまたはお客様の組織内でリアルタイムに共有することにより、データを収益化できます。リスティングトにより、共有データを複製せずにデータを共有できます。詳細な権限を備えた分析可能なデータソースのカタログを構築し、適切なユーザーにデータを配信できます。

  • Analytics Hub のサブスクライバーとして、探しているデータを見つけ、共有データを既存のデータと結合して、BigQuery の組み込み機能を活用できます。リスティングに登録すると、リンクされたデータセットがプロジェクトに作成されます。

  • Analytics Hub の閲覧者である場合は、Analytics Hub でアクセス権のあるデータセットを閲覧し、共有データにアクセスするようパブリッシャーにリクエストできます。

  • Analytics Hub の管理者である場合は、データ共有を有効にするデータ交換を作成し、データパブリッシャーとサブスクライバーにこれらのデータ交換にアクセスする権限を付与できます。

Analytics Hub のユーザーロールの詳細については、Analytics Hub のロールを構成するをご覧ください。

アーキテクチャ

Analytics Hub は、BigQuery データセットのパブリッシュ / サブスクライブ モデル上に構築されています。BigQuery のアーキテクチャでは、コンピューティングとストレージを分離しているため、データ パブリッシャーは、データのコピーを複数作成することなく、必要な数のサブスクライバーとデータを共有できます。パブリッシャーは、データ ストレージに対してのみ課金されます。一方、サブスクライバーは、共有データに対して実行されるクエリに対してのみ費用が発生します。Analytics Hub でのパブリッシャーとサブスクライバーのワークフローついては、以降のセクションで詳しく説明します。

パブリッシャーのワークフロー

次の図は、パブリッシャーが Analytics Hub を操作する方法を示しています。

Analytics Hub のパブリッシャーと Analytics Hub 間のやり取り。
図 1. Analytics Hub パブリッシャーのワークフロー。

図 1 では、共有データセットデータ交換リスティングの各機能にラベルが付加されています。

共有データセット
共有データセットは、Analytics Hub でのデータ共有単位である BigQuery データセットです。パブリッシャーとして、テーブルやビューなど、サブスクライバーに配信するオブジェクトのコレクションを使用して、プロジェクトで既存の BigQuery データセットを作成または使用します。
データ交換
データ交換は、セルフサービスのデータ共有を可能にするコンテナです。共有データセットを参照するリスティングが含まれています。Analytics Hub を使用すると、パブリッシャーと管理者が交換レベルとリスティング レベルでサブスクライバーへのアクセスを許可できます。この方法により、基盤となる共有データセットに対して、アクセスを許可することを明示的に回避するのに役立ちます。Analytics Hub のサブスクライバーは、データ交換を閲覧し、アクセス可能なデータを検出し、共有データセットに登録できます。データ交換には、次のタイプがあります。
  • 限定公開のデータ交換。デフォルトでは、データ交換は限定公開であり、その交換にアクセスできるユーザーまたはグループのみがデータを表示またはデータに登録できます。
  • 一般公開のデータ交換。デフォルトでは、データ交換は限定公開であり、その交換にアクセスできるユーザーまたはグループのみがリスティングを表示またはリスティングに登録できます。ただし、データ交換を一般公開することは可能です。一般公開のデータ交換のリスティングは、Google Cloud ユーザー(allauthenticated ユーザー)検出および登録できます。一般公開のデータ交換の詳細については、データ交換を一般公開するをご覧ください。

Analytics Hub の管理者である場合は、Analytics Hub で複数のデータ交換を作成し、他の Analytics Hub ユーザーを管理できます。

リスティング
リスティングは、パブリッシャーがデータ エクスチェンジに掲載する共有データセットへの参照です。パブリッシャーはリスティングを作成し、データセットの説明、データセットで実行するサンプルクエリ、関連ドキュメントへのリンクなど、サブスクライバーによるデータセットの利用をサポートする追加情報を指定できます。詳細については、リスティングを管理するをご覧ください。リスティングには、それに設定された Identity and Access Management(IAM)ポリシーと、そのリストを含むデータ エクスチェンジの種類に基づいて、次の 2 種類があります。
  • 公開リスティング。すべての Google Cloud ユーザー(allauthenticated ユーザー)と共有されます。一般公開データ交換のリスティングは、一般公開リスティングです。これらのリスティングでは、無料の一般公開データセットまたは商用データセットを参照できます。リスティングが商用データセットを参照する場合、サブスクライバーはリスティングへのアクセスをリクエストできます。データ プロバイダはこれらのサブスクライバーに直接問い合わせます。
  • 限定公開リスティング。個人またはグループと直接共有されます。たとえば、限定公開リスティングで、組織内の他の内部チームと共有しているマーケティング指標のデータセットを参照できます。

サブスクライバーのワークフロー

次の図は、サブスクライバーが Analytics Hub を操作する方法を示しています。

Analytics Hub のサブスクライバーと Analytics Hub 間のやり取り。
図 2. Analytics Hub のサブスクライバー ワークフロー

図 2 では、共有データセットデータ交換リスティングリンクされたデータセットという Analytics Hub の各機能にラベルが付加されています。

リンク済みデータセット
リンクされたデータセットは、共有データセットへのシンボリック リンクとして働く「読み取り専用」の BigQuery データセットです。リスティングをサブスクライブすると、データセットのコピーではなく、リンクされたデータセットがプロジェクトに作成されます。したがって、サブスクライバーはデータを読み取ることはできますが、その中のオブジェクトを追加することや更新することはできません。リンクされたデータセットを通じてオブジェクト(テーブルやビューなど)をクエリすると、共有データセットのデータが返されます。リンクされたデータセットの詳細については、リスティングの表示とサブスクライブをご覧ください。リンクされたデータセットは、共有データセットのテーブルとビューへのアクセスが認可されています。リンクされたデータセットがあるサブスクライバーは、別途 Identity and Access Management の認可を得ることなく、共有データセットのテーブルとビューにアクセスします。

制限事項

Analytics Hub には次の制限があります。

  • Analytics Hub サービスは、USEU のマルチリージョンでのみサポートされています。

  • 共有データセットとデータ エクスチェンジのオーナーは、サブスクリプションの指標を確認できません。

  • プロジェクトが削除されても、その中のデータ エクスチェンジは削除されません。プロジェクトを削除する前に、手動でこうしたデータ エクスチェンジを削除する必要があります。

  • サブスクライバーを持つ共有データセットを削除しても、リンクされたデータセットは削除されません。サブスクライバーは、プロジェクトから手動でリンクされたデータセットを削除する必要があります。

  • 共有データセットに含めることができるリンクされたデータセットは、最大 1,000 個です。すべてのサブスクライバーを合わせて最大 1,000 個のリンクされたデータセットを、共有データセットごとに持つことができます。

  • 次の BigQuery オブジェクトは、Analytics Hub を使用して共有できます。

    リスティングを作成する際、サポートされていないリソースを含むデータセットは共有データセットとして選択できません。

  • パブリッシャーである場合は、次の BigQuery 相互運用性が適用されます。

    • ストリーミング挿入または BigQuery Storage Write API を使用してデータを共有データセットにストリーミングすると、リンクされたデータセットに問題が発生する可能性があります。

    • 共有データセットは、列レベル行レベルのセキュリティをサポートします。

    • 共有データセットのビューにソースデータへの完全修飾された URI 参照が含まれていない場合、そのデータセットに対してクエリを実行するとサブスクライバーは正しい結果を得られません。この問題を回避するには、完全修飾された参照(PROJECT_NAME.DATASET_NAME.TABLE_NAME など)を使用します。

    • 共有データセットは、Data Catalog のインデックスに登録されます。サブスクライバーは、共有データセットの更新(テーブルやビューの追加など)を遅延なく利用できるようになります。ただし、たとえば共有データセットに 100 を超えるサブスクライバーやテーブルがある場合、更新が Data Catalog のインデックスに登録されるまで最大 18 時間かかることがあります。インデックス登録の遅延により、サブスクライバーは Cloud コンソールで更新されたリソースをすぐに検索できません。

  • サブスクライバーである場合は、次の BigQuery 相互運用性が適用されます。

    • リンクされたデータセット リソースでの BigQuery Storage Read API の使用は、サポートされていません。

    • リンクされたデータセット リソースでのタイムトラベルは、サポートされていません。

    • リンクされたデータセット内のテーブルを参照するマテリアライズド ビューはサポートされていません。

    • リンクされたデータセット テーブルのスナップショットの作成はサポートされていません。

  • リンクされたデータセットが共有データセットと同じ場所に配置されていない場合は、クエリサイズが 5 GiB を超えるリンクされたデータセット テーブルへの読み取りオペレーションが失敗する可能性があります。このエラーは、自動的に解決される場合があります。この問題を解決するために、サポートにお問い合わせいただくこともできます。

  • リンクされたデータセットのテーブル メタデータを表示するために、INFORMATION_SCHEMA ビューでリージョン修飾子を使用することはできません。

場所

Analytics Hub サービスは、USEU のマルチリージョンのロケーションでのみサポートされています。

使用例

このセクションでは、Analytics Hub の使用例を示します。

ある小売業者が、Forecasting という Google Cloud プロジェクトに、リアルタイムの需要予測データを持っているとします。この需要予測データを、サプライ チェーン システム内で数百のベンダーと共有したいと考えています。Analytics Hub を使ってベンダーとデータを共有する方法は次のとおりです。

Analytics Hub の管理者

予測プロジェクトのオーナーとして、まず Analytics Hub API を有効にしてから、プロジェクトでのデータ交換を管理するユーザーに Analytics Hub 管理者のロールを割り当てる必要があります。Analytics Hub 管理者のロールを持つユーザーは、Analytics Hub 管理者と呼ばれます。

Analytics Hub の管理者は、次のタスクを実行できます。

  • 組織の Forecasting プロジェクトで、データ エクスチェンジの作成、更新、削除、共有を行います。

  • 他の Analytics Hub 管理者を管理します。

  • Analytics Hub パブリッシャーのロールを組織の従業員に付与することで、パブリッシャーを管理します。一部の従業員にはリスティングの更新、削除、共有のみを許可し、作成は許可しない場合は、Analytics Hub のリスティング管理者のロールを付与します。

  • すべてのベンダーからなる Google グループに Analytics Hub サブスクライバーのロールを付与して、サブスクライバーを管理します。一部のベンダーに、利用可能なエクスチェンジやリスティングに対する表示権限のみを付与する場合は、Analytics Hub 閲覧者のロールを付与します。これらのベンダーは、リスティングに登録できません。

詳細については、データ交換を管理するをご覧ください。

Analytics Hub のパブリッシャー

パブリッシャーは、予測プロジェクトまたは別のプロジェクトで、データセットに対して次のリスティングを作成します。

  • リスティング A: 需要予測データセット 1
  • リスティング B: 需要予測データセット 2
  • リスティング C: 需要予測データセット 3

詳細については、リスティングを管理するをご覧ください。

Analytics Hub のサブスクライバー

サブスクライバーは、データ エクスチェンジにアクセスできるリスティングに目を通すことができます。こうしたリスティングをサブスクライブし、リンクされたデータセットを作成してプロジェクトにデータセットを追加することもできます。そうすると、ベンダーは、これらのリンクされたデータセットに対してクエリを行い、結果をリアルタイムで取得できます。

詳しくは、リスティングを表示して登録するをご覧ください。

料金

データ エクスチェンジやリスティングの管理に追加料金はかかりません。Analytics Hub パブリッシャーは、データ ストレージに対して課金されます。一方、サブスクライバーは、共有データに対して実行されるクエリに対し費用が発生します。料金は、オンデマンド料金または定額料金モデルに基づいて決まります。料金については、BigQuery の料金をご覧ください。

割り当て

Analytics Hub の割り当てについては、割り当てと上限をご覧ください。

次のステップ