Analytics Hub の概要

Analytics Hub は、堅牢なセキュリティとプライバシー フレームワークを備え、組織の境界を越えてデータと分析情報を大規模に共有できるデータ交換プラットフォームです。Analytics Hub により、さまざまなデータ プロバイダがキュレートしたデータ ライブラリを見つけてアクセスできます。このデータ ライブラリには、Google 提供のデータセットも含まれます。

たとえば、Analytics Hub を使用すると、サードパーティと Google のデータセットを使用して分析と ML イニシアチブを強化できます。

Analytics Hub ユーザーは、次のタスクを行うことができます。

  • Analytics Hub のパブリッシャーである場合は、パートナー ネットワークまたはお客様の組織内でリアルタイムに共有することにより、データを収益化できます。リスティングトにより、共有データを複製せずにデータを共有できます。詳細な権限を備えた分析可能なデータソースのカタログを構築し、適切なユーザーにデータを配信できます。また、サブスクリプションを管理し、リスティングの使用状況の指標を表示することもできます。

  • Analytics Hub のサブスクライバーは、探しているデータを見つけ、共有データを既存のデータと結合して、BigQuery の組み込み機能を活用できます。リスティングをサブスクライブすると、リンクされたデータセットまたはリンクされた Pub/Sub サブスクリプションがプロジェクトに作成されます。サブスクリプションを管理するには、サブスクリプション リソースを使用します。これにより、サブスクライバーに関する関連情報を保存し、パブリッシャーとサブスクライバーの間の接続を表します。

  • Analytics Hub の閲覧者である場合は、Analytics Hub でアクセス権のあるデータセットを閲覧し、共有データにアクセスするようパブリッシャーにリクエストできます。

  • Analytics Hub の管理者である場合は、データ共有を有効にするデータ交換を作成し、データパブリッシャーとサブスクライバーにこれらのデータ交換にアクセスする権限を付与できます。

Analytics Hub のユーザーロールの詳細については、Analytics Hub のロールを構成するをご覧ください。

アーキテクチャ

Analytics Hub は、Google Cloud データリソースのパブリッシュ / サブスクライブ モデルに基づいて構築されており、ゼロコピーの共有をその場で行うことができます。Analytics Hub は、次の Google Cloud リソースをサポートしています。

  • BigQuery データセット
  • Pub/Sub トピック

Analytics Hub でのパブリッシャーとサブスクライバーのワークフローついては、以降のセクションで詳しく説明します。

パブリッシャーのワークフロー

次の図は、パブリッシャーが Analytics Hub を操作する方法を示しています。

Analytics Hub のパブリッシャーと Analytics Hub 間のやり取り。
図 1. Analytics Hub パブリッシャーのワークフロー。

図 1 では、共有リソースデータ エクスチェンジリスティングの各機能にラベルが付いています。

共有リソース

共有リソースは、Analytics Hub でパブリッシャーが共有する単位です。

共有データセット
共有データセットは、Analytics Hub でのデータ共有単位である BigQuery データセットです。BigQuery のアーキテクチャでは、コンピューティングとストレージを分離しているため、データ パブリッシャーは、データのコピーを複数作成することなく、必要な数のサブスクライバーとデータセットを共有できます。パブリッシャーは、サブスクライバーに配信する以下のサポートされているオブジェクトを含む BigQuery データセットをプロジェクトで作成するか、このようなオブジェクトを含む既存の BigQuery データセットを使用します。 共有データセットは、列レベルのセキュリティ行レベルのセキュリティをサポートします。
共有トピック(プレビュー
共有トピックは、Analytics Hub でのストリーミング データの共有の単位である Pub/Sub トピックです。パブリッシャーは、プロジェクトで Pub/Sub を作成するか、既存の Pub/Sub を使用して、サブスクライバーに配信します。

データ エクスチェンジ

データ エクスチェンジとは、セルフサービスのデータ共有を可能にするコンテナです。これには、共有リソースを参照するリストが含まれます。Analytics Hub を使用すると、パブリッシャーと管理者がエクスチェンジ レベルとリスティング レベルでサブスクライバーにアクセス権を付与できます。この方法では、基になる共有リソースに対するアクセス権を明示的に付与する必要がなくなります。Analytics Hub のサブスクライバーは、データ エクスチェンジを閲覧し、アクセス可能なデータを検出して、共有リソースをサブスクライブできます。データ エクスチェンジを作成するときに、プライマリ コンタクトのメールアドレスを割り当てることができます。メインの連絡先メールアドレスは、データ エクスチェンジに関する質問や懸念事項について、ユーザーがデータ エクスチェンジのオーナーに連絡するための手段です。データ エクスチェンジには次のタイプがあります。
  • 限定公開データ エクスチェンジ。デフォルトでは、データ エクスチェンジは限定公開であり、そのデータ エクスチェンジにアクセスできるユーザーまたはグループのみがリスティングを表示またはサブスクライブできます。
  • 一般公開データ エクスチェンジ。デフォルトでは、データ交換は限定公開であり、その交換にアクセスできるユーザーまたはグループのみがリスティングを表示またはリスティングに登録できます。ただし、データ交換を一般公開することは可能です。一般公開データ エクスチェンジのリスティングは、Google Cloud ユーザー(allAuthenticatedUsers検出してサブスクライブできます。一般公開データ エクスチェンジの詳細については、データ エクスチェンジを一般公開するをご覧ください。

Analytics Hub の管理者である場合は、Analytics Hub で複数のデータ交換を作成し、他の Analytics Hub ユーザーを管理できます。

リスティング

リスティングは、パブリッシャーがデータ エクスチェンジに掲載する共有リソースへの参照です。パブリッシャーはリスティングを作成し、リソースの説明、実行するサンプルクエリまたはサンプル メッセージ データ、関連ドキュメントへのリンクなど、サブスクライバーによる共有リソースの利用をサポートする追加情報を指定できます。リスティングを作成するときに、メインの連絡先メールアドレス、プロバイダの名前と連絡先、ニュース メディアの名前と連絡先を割り当てることができます。メインの連絡先メールアドレスは、ユーザーがデータ エクスチェンジに関する質問や懸念事項をリスティングのオーナーに連絡するための手段です。プロバイダ名と連絡先は、リスティングのデータを最初に提供した代理店の情報です。この情報は任意です。パブリッシャーの名前と連絡先は、Analytics Hub で使用するためにデータを公開した代理店です。この情報は任意です。詳細については、リスティングを管理するをご覧ください。リスティングには、そのリスティングに対して設定された Identity and Access Management(IAM)ポリシーと、そのリスティングを含むデータ エクスチェンジの種類に基づいて、次の 2 種類があります。
  • 公開リスティング。すべての Google Cloud ユーザー(allAuthenticatedUsersと共有されます。一般公開データ エクスチェンジのリスティングは、公開リスティングです。これらのリスティングでは、無料の一般公開リソースまたは商用リソースを参照できます。リスティングが商用リソースを参照する場合、サブスクライバーはリスティングへのアクセスをリクエストできます。データ プロバイダはこれらのサブスクライバーに直接連絡します。
  • 限定公開リスティング。個人またはグループと直接共有されます。たとえば、限定公開リスティングは、組織内の他の内部チームと共有するマーケティング指標データセットを参照できます。

サブスクライバーのワークフロー

次の図は、サブスクライバーが Analytics Hub を操作する方法を示しています。

Analytics Hub のサブスクライバーと Analytics Hub 間のやり取り。
図 2. Analytics Hub のサブスクライバー ワークフロー

図 2 では、共有リソースデータ エクスチェンジリスティングリンクされたリソースという Analytics Hub の各機能にラベルが付いています。

リンクされたリソース

リンクされたリソースは、Analytics Hub リスティングに登録するときに作成され、サブスクライバーを基盤となる共有リソースに接続します。

リンク済みデータセット
リンク済みデータセットは、読み取り専用の BigQuery データセットです。これは、共有データセットへのポインタまたは参照として機能します。リスティングをサブスクライブすると、データセットのコピーではなく、リンクされたデータセットがプロジェクトに作成されます。したがって、サブスクライバーはデータを読み取ることはできますが、その中のオブジェクトを追加することや更新することはできません。リンクされたデータセットを通じてオブジェクト(テーブルやビューなど)をクエリすると、共有データセットのデータが返されます。リンク済みデータセットの詳細については、リスティングの表示とサブスクライブをご覧ください。リンクされたデータセットは、共有データセットのテーブルとビューへのアクセスが認可されています。リンクされたデータセットがあるサブスクライバーは、別途 Identity and Access Management の認可を得ることなく、共有データセットのテーブルとビューにアクセスします。 リンク済みデータセットは、次のオブジェクトをサポートしています。
リンクされた Pub/Sub サブスクリプション(プレビュー
共有トピックのあるリスティングをサブスクライブすると、リンクされた Pub/Sub サブスクリプションがサブスクライバー プロジェクトに作成されます。共有トピックまたはメッセージ データのコピーは作成されません。リンクされた Pub/Sub サブスクリプションのサブスクライバーは、共有トピックにパブリッシュされたメッセージにアクセスできます。サブスクライバーは、追加の Identity and Access Management の認可なしで、共有トピックのメッセージ データにアクセスします。パブリッシャーは、Pub/Sub で直接、または Analytics Hub のサブスクリプションの管理機能でサブスクリプションを管理できます。リンクされた Pub/Sub サブスクリプションの詳細については、Pub/Sub を使用したストリームの共有をご覧ください。

下り(外向き)データ オプション(BigQuery 共有データセットのみ)

下り(外向き)データ オプションを使用すると、パブリッシャーは、サブスクライバーが BigQuery とリンクされたデータセットからデータをエクスポートすることを制限できます。

下り(外向き)データの制限は、リスティング、クエリの結果、またはその両方に対して有効にできます。下り(外向き)データが制限される場合、次の制限が適用されます。

  • コピー、クローン、エクスポート、スナップショットの各 API は無効になります。

  • Google Cloud コンソールでコピー、クローン、エクスポート、スナップショットの各オプションは無効になります。

  • 制限付きのデータセットのテーブル エクスプローラへの接続は無効になります。

  • BigQuery Data Transfer Service が、制限付きのデータセットで無効になります。

  • CREATE TABLE AS SELECT ステートメント宛先テーブルへの書き込みは無効になります。

  • CREATE VIEW AS SELECT ステートメント と宛先ビューへの書き込みは無効になります。

リスティングを作成するときに、適切な下り(外向き)データ オプションを設定できます。

制限事項

Analytics Hub には次の制限があります。

  • 共有データセットに含めることができるリンク済みデータセットは、最大 1,000 個です。

  • 共有トピックに設定できる Pub/Sub サブスクリプションは最大 10,000 個です。この上限には、リンクされた Pub/Sub サブスクリプションと、Analytics Hub の外部で作成された Pub/Sub サブスクリプション(Pub/Sub から直接作成したものなど)が含まれます。

  • リスティングを作成する際、サポートされていないリソースを含むデータセットは共有データセットとして選択できません。Analytics Hub がサポートする BigQuery オブジェクトの詳細については、このドキュメントの共有データセットをご覧ください。

  • リンクされたデータセット内の個々のテーブルに IAM ロールまたは IAM ポリシーを設定することはできません。代わりに、リンクされたデータセット レベルで適用します。

  • 2023 年 7 月 25 日より前に作成されたリンク済みデータセットは、サブスクリプション リソースでバックフィルされません。2023 年 7 月 25 日以降に作成されたサブスクリプションのみが API メソッドで機能します。

  • パブリッシャーには、BigQuery の次の相互運用性に関する制限が適用されます。

    • サブスクライバーが、リンクされたデータセット内のビューにクエリを実行できるようにするには、ソース データセットを読み取る明示的な権限が付与されている必要があります。ビューへのアクセス権を付与するには、ベスト プラクティスとして、パブリッシャーが承認済みビューを作成することをおすすめします。承認済みビューを使用すると、サブスクライバーにビューデータへのアクセス権を付与し、基になるソースデータに対するアクセス権は付与しないようにできます。

    • クエリプランでは、共有ビュークエリとルーティン クエリ(プロジェクト ID を含む)と、承認済みビューに関連する他のデータセットが表示されます。共有ビューやルーティン クエリで機密情報とみなされる暗号鍵などを含めないでください。

    • 共有データセットは、Data Catalog のインデックスに登録されます。パブリッシャーは、共有データセットの更新(テーブルやビューの追加など)を遅延なく利用できるようになります。ただし、たとえば共有データセットに 100 を超えるサブスクライバーやテーブルがある場合、更新が Data Catalog のインデックスに登録されるまで最大 18 時間かかることがあります。インデックス登録の遅延により、サブスクライバーは Google Cloud コンソールで更新されたリソースをすぐに検索できません。

    • 共有トピックは Data Catalog にインデックス登録されますが、リソースタイプをフィルタすることはできません。

    • 一覧表示されたテーブルに行レベルのセキュリティ ポリシーまたはデータ マスキング ポリシーが設定されている場合、サブスクライバーがリンク済みデータセットに対してクエリジョブを実行するには、サブスクライバーが Enterprise または Enterprise Plus を購入している必要があります。エディションの詳細については、BigQuery エディションの概要をご覧ください。

  • サブスクライバーには、BigQuery の次の相互運用性に関する制限が適用されます。

    • リンク済みデータセット内のテーブルを参照するマテリアライズド ビューはサポートされていません。

    • リンク済みデータセット テーブルのスナップショットの作成はサポートされていません。

    • リンク済みデータセットと 1 TB(物理ストレージ)を超える JOIN ステートメントを含むクエリは失敗する可能性があります。この問題を解決するには、サポートにお問い合わせください。

    • リンク済みデータセットのテーブル メタデータを表示するために、INFORMATION_SCHEMA ビューでリージョン修飾子を使用することはできません。

    • リンクされたデータセット内のルーティンをクエリする場合、ユーザー定義関数(SQL と JavaScript の両方の UDF)とテーブル関数ルーティンのタイプのみをクエリできます。サポートされていないルーティン タイプに対してクエリを実行すると、次のエラー メッセージが表示されます。 Querying routine type type is not yet supported on linked dataset dataset.

  • 使用状況の指標には次の制限が適用されます。

    • 2023 年 7 月 20 日より前にサブスクライブされたリスティングについては、使用状況の指標を取得できません。

    • num_rows_processed フィールドと total_bytes_processed フィールドの外部テーブルの使用状況の指標に、不正確なデータが含まれる可能性があります。

    • 消費量に関する使用状況の指標は、BigQuery ジョブによる使用のみでサポートされています。次のリソースを使用した消費量はサポートされていません。

    • ビューの使用状況の指標は、2024 年 4 月 22 日以降のクエリに対してのみ入力されます。

    • Analytics Hub では、リンクされた Pub/Sub サブスクリプションの使用状況の指標はキャプチャされません(引き続き Pub/Sub で使用状況を直接確認できます)。

  • Salesforce Data Cloud データのサブスクリプションには、次の制限が適用されます。

    • Data Cloud のデータはビューとして共有されます。サブスクライバーは、ビューが参照している基盤となるテーブルにアクセスできません。

サポートされているリージョン

Analytics Hub は、次のリージョンとマルチリージョンでサポートされています。

リージョン

次の表に、Analytics Hub が利用可能な南北アメリカのリージョンを示します。
リージョンの説明 リージョン名 詳細
コロンバス(オハイオ州) us-east5
ダラス us-south1 リーフアイコン 低 CO2
アイオワ us-central1 リーフアイコン 低 CO2
ラスベガス us-west4
ロサンゼルス us-west2
モントリオール northamerica-northeast1 リーフアイコン 低 CO2
北バージニア us-east4
オレゴン us-west1 リーフアイコン 低 CO2
ソルトレイクシティ us-west3
サンパウロ southamerica-east1 リーフアイコン 低 CO2
サンティアゴ southamerica-west1
サウスカロライナ us-east1
トロント northamerica-northeast2
次の表に、Analytics Hub が利用可能なアジア太平洋のリージョンを示します。
リージョンの説明 リージョン名 詳細
デリー asia-south2
香港 asia-east2
ジャカルタ asia-southeast2
メルボルン australia-southeast2
ムンバイ asia-south1
大阪 asia-northeast2
ソウル asia-northeast3
シンガポール asia-southeast1
シドニー australia-southeast1
台湾 asia-east1
東京 asia-northeast1
次の表に、Analytics Hub が利用可能なヨーロッパのリージョンを示します。
リージョンの説明 リージョン名 詳細
ベルギー europe-west1 リーフアイコン 低 CO2
フィンランド europe-north1 リーフアイコン 低 CO2
フランクフルト europe-west3 リーフアイコン 低 CO2
ロンドン europe-west2 リーフアイコン 低 CO2
オランダ europe-west4 リーフアイコン 低 CO2
ワルシャワ europe-central2
チューリッヒ europe-west6 リーフアイコン 低 CO2
次の表に、Analytics Hub が利用可能な中東のリージョンを示します。
リージョンの説明 リージョン名 詳細
ダンマーム me-central2
テルアビブ me-west1
次の表に、Analytics Hub が利用可能なアフリカのリージョンを示します。
リージョンの説明 リージョン名 詳細
ヨハネスブルグ africa-south1

マルチリージョン

次の表に、Analytics Hub が利用可能なマルチリージョンを示します。
マルチリージョンの説明 マルチリージョン名
欧州連合の加盟国内のデータセンター1 EU
米国内のデータセンター US

1 EU マルチリージョン内のデータは europe-west2(ロンドン)や europe-west6(チューリッヒ)のデータセンターには保存されません。

オムニリージョン

次の表に、Analytics Hub が使用可能な Omni を示します。
オムニリージョンの説明 オムニリージョンの名前
AWS
AWS - US East(北バージニア) aws-us-east-1
AWS 米国西部(オレゴン) aws-us-west-2
AWS - アジア太平洋(ソウル) aws-ap-northeast-2
AWS - アジア太平洋(シドニー) aws-ap-southeast-2
AWS - ヨーロッパ(アイルランド) aws-eu-west-1
AWS - ヨーロッパ(フランクフルト) aws-eu-central-1
Azure
Azure - East US 2 azure-eastus2

使用例

このセクションでは、Analytics Hub の使用例を示します。

ある小売業者が、Forecasting という Google Cloud プロジェクトに、リアルタイムの需要予測データを持っているとします。この需要予測データを、サプライ チェーン システム内で数百のベンダーと共有したいと考えています。Analytics Hub を使ってベンダーとデータを共有する方法は次のとおりです。

Analytics Hub の管理者

予測プロジェクトのオーナーとして、まず Analytics Hub API を有効にしてから、プロジェクトでのデータ交換を管理するユーザーに Analytics Hub 管理者のロールを割り当てる必要があります。Analytics Hub 管理者のロールを持つユーザーは、Analytics Hub 管理者と呼ばれます。

Analytics Hub の管理者は、次のタスクを実行できます。

  • 組織の Forecasting プロジェクトで、データ エクスチェンジの作成、更新、削除、共有を行います。

  • 他の Analytics Hub 管理者を管理します。

  • Analytics Hub パブリッシャーのロールを組織の従業員に付与することで、パブリッシャーを管理します。一部の従業員にはリスティングの更新、削除、共有のみを許可し、作成は許可しない場合は、Analytics Hub のリスティング管理者のロールを付与します。

  • すべてのベンダーからなる Google グループに Analytics Hub サブスクライバーのロールを付与して、サブスクライバーを管理します。一部のベンダーに、利用可能なエクスチェンジやリスティングに対する表示権限のみを付与する場合は、Analytics Hub 閲覧者のロールを付与します。これらのベンダーは、リスティングをサブスクライブできません。

詳細については、データ交換を管理するをご覧ください。

Analytics Hub のパブリッシャー

パブリッシャーは、予測プロジェクトまたは別のプロジェクトで、データセットに対して次のリスティングを作成します。

  • リスティング A: 需要予測データセット 1
  • リスティング B: 需要予測データセット 2
  • リスティング C: 需要予測データセット 3

データ プロバイダは、共有データセットの使用状況の指標を追跡できます。使用状況の指標には、次の情報が含まれます。

  • 共有データセットに対して実行されるジョブ。
  • サブスクライバーのプロジェクトと組織ごとの共有データセットの消費量の詳細。
  • ジョブによって処理された行数とバイト数。

詳細については、リスティングを管理するをご覧ください。

Analytics Hub のサブスクライバー

サブスクライバーは、データ エクスチェンジにアクセスできるリスティングに目を通すことができます。こうしたリスティングをサブスクライブし、リンクされたデータセットを作成してプロジェクトにデータセットを追加することもできます。そうすると、ベンダーは、これらのリンクされたデータセットに対してクエリを行い、結果をリアルタイムで取得できます。

詳しくは、リスティングを表示して登録するをご覧ください。

料金

データ エクスチェンジやリスティングの管理に追加料金はかかりません。

BigQuery データセットの場合、Analytics Hub パブリッシャーは、データ ストレージに対して課金されます。一方、サブスクライバーは、オンデマンド料金モデルまたは容量ベースの料金モデルに基づいて、共有データに対して実行されるクエリの料金を負担します。料金については、BigQuery の料金をご覧ください。

Pub/Sub の場合、トピック パブリッシャーは、共有トピックと下り(外向き)ネットワーク(該当する場合)に書き込まれた合計バイト数(パブリッシュ スループット)に対して課金されます。サブスクライバーは、リンクされたサブスクリプションと下り(外向き)ネットワーク(該当する場合)から読み取られた合計バイト数(サブスクライブ スループット)に対して課金されます。詳しくは、Pub/Sub の料金をご覧ください。

割り当て

Analytics Hub の割り当てについては、割り当てと上限をご覧ください。

VPC Service Controls

VPC Service Controls の境界が設定されているプロジェクトのデータにパブリッシャーとサブスクライバーがアクセスするために必要な必要な上り(内向き)ルールと下り(外向き)ルールを設定できます。詳細については、Analytics Hub の VPC Service Controls のルールをご覧ください。

次のステップ