Analytics Hub の概要

Analytics Hub は、堅牢なセキュリティとプライバシー フレームワークを備え、組織の境界を越えてデータと分析情報を大規模に共有できるデータ交換プラットフォームです。Analytics Hub では、さまざまなデータ プロバイダがキュレートしたデータ ライブラリを見つけてアクセスできます。このデータ ライブラリには、Google 提供のデータセットも含まれます。

たとえば、Analytics Hub を使用すると、サードパーティと Google のデータセットを使用して分析と ML イニシアチブを強化できます。

Analytics Hub ユーザーは、次の操作を行うことができます。

  • Analytics Hub のパブリッシャーは、パートナー ネットワークまたは組織内でリアルタイムにデータを共有することにより、データを収益化できます。リスティングにより、共有データを複製せずにデータを共有できます。詳細な権限を備えた分析可能なデータソースのカタログを構築し、適切なユーザーにデータを配信できます。また、サブスクリプションを管理し、リスティングの使用状況の指標を確認することもできます。

  • Analytics Hub のサブスクライバーは、探しているデータを見つけ、共有データを既存のデータと結合して、BigQuery の組み込み機能を活用できます。リスティングをサブスクライブすると、リンクされたデータセットがプロジェクトに作成されます。サブスクリプションを管理するには、サブスクライバーに関する関連情報が保存され、パブリッシャーとサブスクライバー間の接続を表すサブスクリプション リソースを使用します。

  • Analytics Hub の閲覧者は、Analytics Hub でアクセス権のあるデータセットを閲覧し、共有データへのアクセスをパブリッシャーにリクエストできます。

  • Analytics Hub の管理者は、データ共有を有効にするデータ エクスチェンジを作成し、これらのデータ エクスチェンジにアクセスする権限をデータ パブリッシャーとサブスクライバーに付与できます。

Analytics Hub のユーザーロールの詳細については、Analytics Hub のロールを構成するをご覧ください。

アーキテクチャ

Analytics Hub は、BigQuery データセットのパブリッシュ / サブスクライブ モデル上に構築されています。BigQuery のアーキテクチャでは、コンピューティングとストレージを分離しているため、データ パブリッシャーは、データのコピーを複数作成することなく、必要な数のサブスクライバーとデータを共有できます。パブリッシャーは、データ ストレージに対してのみ課金されます。サブスクライバーは、共有データに対して実行されるクエリに対してのみ費用が発生します。Analytics Hub でのパブリッシャーとサブスクライバーのワークフローついては、以降のセクションで詳しく説明します。

パブリッシャーのワークフロー

次の図は、パブリッシャーと Analytics Hub の間のやり取りを示しています。

Analytics Hub のパブリッシャーと Analytics Hub 間のやり取り。
図 1. Analytics Hub パブリッシャーのワークフロー。

図 1 では、共有データセットデータ エクスチェンジリスティングの各機能にラベルが付いています。

共有データセット
共有データセットは、Analytics Hub でのデータ共有単位である BigQuery データセットです。パブリッシャーは、サブスクライバーに配信する以下のサポートされているオブジェクトを含む BigQuery データセットをプロジェクトで作成するか、このようなオブジェクトを含む既存の BigQuery データセットを使用します。共有データセットは、列レベルのセキュリティ行レベルのセキュリティをサポートします。
データ エクスチェンジ
データ エクスチェンジとは、セルフサービスのデータ共有を可能にするコンテナです。これには、共有データセットを参照するリストが含まれます。Analytics Hub を使用すると、パブリッシャーと管理者がエクスチェンジ レベルとリスティング レベルでサブスクライバーへのアクセスを許可できます。この方法では、基になる共有データセットに対するアクセス権が明示的に付与する必要がなくなります。Analytics Hub のサブスクライバーは、データ エクスチェンジを閲覧し、アクセス可能なデータを検出し、共有データセットをサブスクライブできます。データ エクスチェンジには次のタイプがあります。
  • 限定公開データ エクスチェンジ。デフォルトでは、データ エクスチェンジは限定公開であり、そのデータ エクスチェンジにアクセスできるユーザーまたはグループのみがデータを表示またはサブスクライできます。
  • 一般公開データ エクスチェンジ。デフォルトでは、データ エクスチェンジは限定公開であり、そのデータ エクスチェンジにアクセスできるユーザーまたはグループのみがリスティングを表示またはサブスクライブできます。ただし、データ エクスチェンジを一般公開することは可能です。一般公開データ エクスチェンジのリスティングは、Google Cloud ユーザー(allAuthenticatedUsers検出してサブスクライブできます。一般公開データ エクスチェンジの詳細については、データ エクスチェンジを一般公開するをご覧ください。

Analytics Hub の管理者は、Analytics Hub で複数のデータ エクスチェンジを作成し、他の Analytics Hub ユーザーを管理できます。

リスティング
リスティングは、パブリッシャーがデータ エクスチェンジにリストする共有データセットへの参照です。パブリッシャーはリスティングを作成し、データセットの説明、データセットで実行するサンプルクエリ、関連ドキュメントへのリンクなど、サブスクライバーによるデータセットの利用をサポートする追加情報を指定できます。詳細については、リスティングを管理するをご覧ください。リスティングには、そのリスティングに対して設定された Identity and Access Management(IAM)ポリシーと、そのリスティングを含むデータ エクスチェンジの種類に基づいて、次の 2 種類があります。
  • 公開リスティング。すべての Google Cloud ユーザー(allAuthenticatedUsersと共有されます。一般公開データ エクスチェンジのリスティングは、公開リスティングです。これらのリスティングでは、無料の一般公開データセットまたは商用データセットを参照できます。リスティングが商用データセットを参照する場合、サブスクライバーはリスティングへのアクセスをリクエストできます。データ プロバイダはこれらのサブスクライバーに直接連絡します。
  • 限定公開リスティング。個人またはグループと直接共有されます。たとえば、限定公開リスティングは、組織内の他の内部チームと共有するマーケティング指標データセットを参照できます。

下り(外向き)データ

下り(外向き)データ オプション(プレビュー)を設定すると、BigQuery からのデータのエクスポートを制限できます。エディション以外のサービスまたは Enterprise Plus エディションのサブスクライバーのみが、下り(外向き)データの制限があるデータをクエリできます。下り(外向き)データの制限は、リスティング、クエリの結果、またはその両方に対して有効にできます。下り(外向き)データが制限される場合、次の制限が適用されます。

  • コピー、クローン、エクスポート、スナップショットの各 API は無効になります。

  • Google Cloud コンソールのコピー、クローン、エクスポート、スナップショットの各オプションは無効になります。

  • 制限付きのデータセットのテーブル エクスプローラへの接続は無効になります。

  • BigQuery Data Transfer Service が、制限付きのデータセットで無効になります。

  • CREATE TABLE AS SELECT ステートメント宛先テーブルへの書き込みは無効になります。

リスティングを作成するときに、適切な下り(外向き)データ オプションを設定できます。

サブスクライバーのワークフロー

次の図は、サブスクライバーと Analytics Hub の間のやり取りを示しています。

Analytics Hub のサブスクライバーと Analytics Hub 間のやり取り。
図 2. Analytics Hub のサブスクライバー ワークフロー

図 2 では、共有データセットデータ エクスチェンジリスティングリンク済みデータセットという Analytics Hub の各機能にラベルが付いています。

リンク済みデータセット
リンク済みデータセットは、読み取り専用の BigQuery データセットです。これは、共有データセットへのシンボリック リンクとして機能します。リスティングをサブスクライブすると、データセットのコピーではなく、リンク済みデータセットがプロジェクトに作成されます。したがって、サブスクライバーはデータを読み取ることはできますが、その中のオブジェクトを追加することや更新することはできません。リンク済みデータセットを通じて、テーブルやビューなどのオブジェクトをクエリすると、共有データセットのデータが返されます。リンク済みデータセットの詳細については、リスティングの表示とサブスクライブをご覧ください。リンク済みデータセットは、共有データセットのテーブルとビューへのアクセスが認可されています。リンク済みデータセットがあるサブスクライバーは、別途 Identity and Access Management の認可を得ることなく、共有データセットのテーブルとビューにアクセスします。 リンク済みデータセットは、次のオブジェクトをサポートしています。

制限事項

Analytics Hub には次の制限があります。

  • 顧客管理の暗号鍵を使用する共有データセットのリスティングを作成する場合、サブスクライバーはデータセットへのアクセスに必要な Cloud KMS 鍵にアクセスできません。

  • 共有データセットに含めることができるリンク済みデータセットは、最大 1,000 個です。

  • リスティングを作成する際、サポートされていないリソースを含むデータセットは共有データセットとして選択できません。Analytics Hub がサポートする BigQuery オブジェクトの詳細については、このドキュメントの共有データセットをご覧ください。

  • 下り(外向き)データを制限するようにリスティングを更新することはできません。下り(外向き)データは新しいリスティングでのみ制限できます。

  • 2023 年 7 月 25 日より前に作成されたリンク済みデータセットは、サブスクリプション リソースでバックフィルされません。2023 年 7 月 25 日以降に作成されたサブスクリプションのみが API メソッドで機能します。

  • パブリッシャーには、BigQuery の次の相互運用性に関する制限が適用されます。

    • サブスクライバーは、他のプロジェクトのデータを参照するリンク済みデータセット内のビューに対してはクエリを実行できません。サブスクライバーにビューデータへのアクセス権を付与し、基になるソースデータに対するアクセス権は付与しないようにするには、承認済みビューを作成する必要があります。

    • クエリプランでは、共有ビュークエリとルーティン クエリ(プロジェクト ID を含む)と、承認済みビューに関連する他のデータセットが表示されます。共有ビューやルーティン クエリで機密情報とみなされる暗号鍵などを含めないでください。

    • 共有データセットは、Data Catalog のインデックスに登録されます。サブスクライバーは、共有データセットの更新(テーブルやビューの追加など)を遅延なく利用できるようになります。ただし、たとえば共有データセットに 100 を超えるサブスクライバーやテーブルがある場合、更新が Data Catalog のインデックスに登録されるまで最大 18 時間かかることがあります。インデックス登録の遅延により、サブスクライバーは Google Cloud コンソールで更新されたリソースをすぐに検索できません。

    • 一覧表示されたテーブルに行レベルのセキュリティ ポリシーまたはデータ マスキング ポリシーが設定されている場合、サブスクライバーがリンク済みデータセットに対してクエリジョブを実行するには、サブスクライバーが Enterprise または Enterprise Plus を購入している必要があります。エディションの詳細については、BigQuery エディションの概要をご覧ください。

  • サブスクライバーには、BigQuery の次の相互運用性に関する制限が適用されます。

    • リンク済みデータセット内のテーブルを参照するマテリアライズド ビューはサポートされていません。

    • リンク済みデータセット テーブルのスナップショットの作成はサポートされていません。

    • リンク済みデータセットが共有データセットと同じ場所に配置されていない場合は、クエリサイズが 1 TB を超えるリンク済みデータセット テーブルへの読み取りオペレーションが失敗する可能性があります。この問題を解決するために、サポートにお問い合わせいただくことができます。

    • リンク済みデータセットのテーブル メタデータを表示するために、INFORMATION_SCHEMA ビューでリージョン修飾子を使用することはできません。

    • リンク済みデータセット内のルーティンをクエリする場合、ユーザー定義関数(SQL と JavaScript の両方の UDF)とテーブル関数ルーティン タイプのみをクエリできます。サポートされていないルーティン タイプに対してクエリを実行すると、次のエラー メッセージが表示されます。 Querying routine type type is not yet supported on linked dataset dataset.

  • 使用状況の指標には次の制限が適用されます。

サポートされるリージョン

Analytics Hub は、次のリージョンとマルチリージョンでサポートされています。

リージョン

次の表に、Analytics Hub が利用可能な南北アメリカのリージョンを示します。
リージョンの説明 リージョン名 詳細
アイオワ us-central1 リーフアイコン 低 CO2
ラスベガス us-west4
ロサンゼルス us-west2
モントリオール northamerica-northeast1 リーフアイコン 低 CO2
北バージニア us-east4
オレゴン us-west1 リーフアイコン 低 CO2
ソルトレイクシティ us-west3
サンパウロ southamerica-east1 リーフアイコン 低 CO2
サンティアゴ southamerica-west1
サウスカロライナ us-east1
トロント northamerica-northeast2
次の表に、Analytics Hub が利用可能なアジア太平洋のリージョンを示します。
リージョンの説明 リージョン名 詳細
デリー asia-south2
香港 asia-east2
ジャカルタ asia-southeast2
メルボルン australia-southeast2
ムンバイ asia-south1
大阪 asia-northeast2
ソウル asia-northeast3
シンガポール asia-southeast1
シドニー australia-southeast1
台湾 asia-east1
東京 asia-northeast1
次の表に、Analytics Hub が利用可能なヨーロッパのリージョンを示します。
リージョンの説明 リージョン名 詳細
ベルギー europe-west1 リーフアイコン 低 CO2
フィンランド europe-north1 リーフアイコン 低 CO2
フランクフルト europe-west3 リーフアイコン 低 CO2
ロンドン europe-west2 リーフアイコン 低 CO2
オランダ europe-west4
ワルシャワ europe-central2
チューリッヒ europe-west6 リーフアイコン 低 CO2

マルチリージョン

次の表に、Analytics Hub が利用可能なマルチリージョンを示します。
マルチリージョンの説明 マルチリージョン名
欧州連合の加盟国内のデータセンター1 EU
米国内のデータセンター US

1 EU マルチリージョン内のデータは europe-west2(ロンドン)や europe-west6(チューリッヒ)のデータセンターには保存されません。

オムニリージョン

次の表に、Analytics Hub が利用可能なオムニリージョンを示します。
オムニリージョンの説明 オムニリージョンの名前
AWS
AWS - US East(北バージニア) aws-us-east-1
Azure
Azure - East US 2 azure-eastus2

使用例

このセクションでは、Analytics Hub の使用例を説明します。

ある小売業者が、Forecasting という Google Cloud プロジェクトに、リアルタイムの需要予測データを維持しているとします。この需要予測データを、サプライ チェーン システム内で数百のベンダーと共有したいと考えています。Analytics Hub を使用してベンダーとデータを共有する方法は次のとおりです。

Analytics Hub の管理者

Forecasting プロジェクトのオーナーとして、最初に Analytics Hub API を有効にしてから、プロジェクトでデータ エクスチェンジを管理するユーザーに Analytics Hub 管理者のロールを割り当てる必要があります。Analytics Hub 管理者のロールが付与されているユーザーは、Analytics Hub 管理者と呼ばれます。

Analytics Hub の管理者は、次のタスクを実行できます。

  • 組織の Forecasting プロジェクトで、データ エクスチェンジの作成、更新、削除、共有を行います。

  • 他の Analytics Hub 管理者を管理します。

  • Analytics Hub パブリッシャーのロールを組織の従業員に付与して、パブリッシャーを管理します。一部の従業員にはリスティングの更新、削除、共有のみを許可し、作成は許可しない場合は、Analytics Hub リスティング管理者のロールを付与します。

  • すべてのベンダーからなる Google グループに Analytics Hub サブスクライバーのロールを付与して、サブスクライバーを管理します。一部のベンダーに、利用可能なエクスチェンジとリスティングに対する表示権限のみを付与する場合は、Analytics Hub 閲覧者のロールを付与します。これらのベンダーは、リスティングをサブスクライブできません。

詳細については、データ エクスチェンジを管理するをご覧ください。

Analytics Hub パブリッシャー

パブリッシャーは、Forecasting プロジェクトまたは別のプロジェクトで、データセットに対して次のリスティングを作成します。

  • リスティング A: 需要予測データセット 1
  • リスティング B: 需要予測データセット 2
  • リスティング C: 需要予測データセット 3

データ プロバイダは、共有データセットの使用状況の指標を追跡できます。使用状況の指標には、次の情報が含まれます。

  • 共有データセットに対して実行されるジョブ。
  • サブスクライバーのプロジェクトと組織ごとの共有データセットの消費量の詳細。
  • ジョブによって処理された行数とバイト数。

詳細については、リスティングを管理するをご覧ください。

Analytics Hub サブスクライバー

サブスクライバーは、データ エクスチェンジで各自がアクセスできるリスティングを閲覧できます。このようなリスティングをサブスクライブし、リンク済みデータセットを作成して、プロジェクトにそれらのデータセットを追加することもできます。その後ベンダーが、これらのリンク済みデータセットに対してクエリを行い、結果をリアルタイムで取得できます。

詳しくは、リスティングを表示して登録するをご覧ください。

料金

データ エクスチェンジやリスティングの管理に追加料金はかかりません。Analytics Hub パブリッシャーは、データ ストレージに対して課金されます。一方、サブスクライバーは、オンデマンド料金モデルまたは容量ベースの料金モデルに基づいて、共有データに対して実行されるクエリの料金を負担します。料金については、BigQuery の料金をご覧ください。

割り当て

Analytics Hub の割り当てについては、割り当てと上限をご覧ください。

VPC Service Controls

VPC Service Controls の境界が設定されているプロジェクトのデータにパブリッシャーとサブスクライバーがアクセスするために必要な必要な上り(内向き)ルールと下り(外向き)ルールを設定できます。詳細については、Analytics Hub の VPC Service Controls のルールをご覧ください。

次のステップ