Analytics Hub の概要
Analytics Hub は、堅牢なセキュリティとプライバシー フレームワークを備え、組織の境界を越えてデータと分析情報を大規模に共有できるデータ交換プラットフォームです。Analytics Hub では、さまざまなデータ プロバイダがキュレートしたデータ ライブラリを見つけてアクセスできます。このデータ ライブラリには、Google 提供のデータセットも含まれます。
たとえば、Analytics Hub を使用すると、サードパーティと Google のデータセットを使用して分析と ML イニシアチブを強化できます。
Analytics Hub ユーザーは、次の操作を行うことができます。
Analytics Hub のパブリッシャーは、パートナー ネットワークまたは組織内でリアルタイムにデータを共有することにより、データを収益化できます。リスティングにより、共有データを複製せずにデータを共有できます。詳細な権限を備えた分析可能なデータソースのカタログを構築し、適切なユーザーにデータを配信できます。また、サブスクリプションを管理し、リスティングの使用状況の指標を確認することもできます。
Analytics Hub のサブスクライバーは、探しているデータを見つけ、共有データを既存のデータと結合して、BigQuery の組み込み機能を活用できます。リスティングをサブスクライブすると、リンクされたデータセットまたはリンクされた Pub/Sub サブスクリプションがプロジェクトに作成されます。サブスクリプションを管理するには、サブスクリプション リソースを使用します。これにより、サブスクライバーに関する関連情報を保存し、パブリッシャーとサブスクライバーの間の接続を表します。
Analytics Hub の閲覧者は、Analytics Hub でアクセス権のあるデータセットを閲覧し、共有データへのアクセスをパブリッシャーにリクエストできます。
Analytics Hub の管理者は、データ共有を有効にするデータ エクスチェンジを作成し、これらのデータ エクスチェンジにアクセスする権限をデータ パブリッシャーとサブスクライバーに付与できます。
Analytics Hub のユーザーロールの詳細については、Analytics Hub のロールを構成するをご覧ください。
アーキテクチャ
Analytics Hub は、Google Cloud データリソースのパブリッシュ / サブスクライブ モデルに基づいて構築されており、ゼロコピーの共有をその場で行うことができます。Analytics Hub は、次の Google Cloud リソースをサポートしています。
- BigQuery データセット
- Pub/Sub トピック
Analytics Hub でのパブリッシャーとサブスクライバーのワークフローついては、以降のセクションで詳しく説明します。
パブリッシャーのワークフロー
次の図は、パブリッシャーと Analytics Hub の間のやり取りを示しています。
図 1 では、共有リソース、データ エクスチェンジ、リスティングの各機能にラベルが付いています。
共有リソース
共有リソースは、Analytics Hub でパブリッシャーが共有する単位です。
共有データセット
- 共有データセットは、Analytics Hub でのデータ共有単位である BigQuery データセットです。BigQuery のアーキテクチャでは、コンピューティングとストレージを分離しているため、データ パブリッシャーは、データのコピーを複数作成することなく、必要な数のサブスクライバーとデータセットを共有できます。パブリッシャーは、サブスクライバーに配信する以下のサポートされているオブジェクトを含む BigQuery データセットをプロジェクトで作成するか、このようなオブジェクトを含む既存の BigQuery データセットを使用します。
- 承認済みビュー
- 承認済みデータセット
- BigQuery ML モデル
- 外部テーブル
- マテリアライズド ビュー
- ルーティン。共有データセットではすべてのルーティンがサポートされているわけではありません。詳細については、制限事項をご覧ください。
- テーブル
- テーブル スナップショット
- ビュー
共有トピック(プレビュー)
- 共有トピックは、Analytics Hub でのストリーミング データの共有の単位である Pub/Sub トピックです。パブリッシャーは、プロジェクトで Pub/Sub を作成するか、既存の Pub/Sub を使用して、サブスクライバーに配信します。
データ エクスチェンジ
- データ エクスチェンジとは、セルフサービスのデータ共有を可能にするコンテナです。これには、共有リソースを参照するリストが含まれます。Analytics Hub を使用すると、パブリッシャーと管理者がエクスチェンジ レベルとリスティング レベルでサブスクライバーにアクセス権を付与できます。この方法では、基になる共有リソースに対するアクセス権を明示的に付与する必要がなくなります。Analytics Hub のサブスクライバーは、データ エクスチェンジを閲覧し、アクセス可能なデータを検出して、共有リソースをサブスクライブできます。データ エクスチェンジには次のタイプがあります。
- 限定公開データ エクスチェンジ。デフォルトでは、データ エクスチェンジは限定公開であり、そのデータ エクスチェンジにアクセスできるユーザーまたはグループのみがリスティングを表示またはサブスクライブできます。
- 一般公開データ エクスチェンジ。デフォルトでは、データ エクスチェンジは限定公開であり、そのデータ エクスチェンジにアクセスできるユーザーまたはグループのみがリスティングを表示またはサブスクライブできます。ただし、データ エクスチェンジを一般公開することは可能です。一般公開データ エクスチェンジのリスティングは、Google Cloud ユーザー(
allAuthenticatedUsers
)が検出してサブスクライブできます。一般公開データ エクスチェンジの詳細については、データ エクスチェンジを一般公開するをご覧ください。
Analytics Hub の管理者は、Analytics Hub で複数のデータ エクスチェンジを作成し、他の Analytics Hub ユーザーを管理できます。
リスティング
- リスティングは、パブリッシャーがデータ エクスチェンジに掲載する共有リソースへの参照です。パブリッシャーはリスティングを作成し、リソースの説明、実行するサンプルクエリまたはサンプル メッセージ データ、関連ドキュメントへのリンクなど、サブスクライバーによる共有リソースの利用をサポートする追加情報を指定できます。詳細については、リスティングを管理するをご覧ください。リスティングには、そのリスティングに対して設定された Identity and Access Management(IAM)ポリシーと、そのリスティングを含むデータ エクスチェンジの種類に基づいて、次の 2 種類があります。
- 公開リスティング。すべての Google Cloud ユーザー(
allAuthenticatedUsers
)と共有されます。一般公開データ エクスチェンジのリスティングは、公開リスティングです。これらのリスティングでは、無料の一般公開リソースまたは商用リソースを参照できます。リスティングが商用リソースを参照する場合、サブスクライバーはリスティングへのアクセスをリクエストできます。データ プロバイダはこれらのサブスクライバーに直接連絡します。 - 限定公開リスティング。個人またはグループと直接共有されます。たとえば、限定公開リスティングは、組織内の他の内部チームと共有するマーケティング指標データセットを参照できます。
- 公開リスティング。すべての Google Cloud ユーザー(
サブスクライバーのワークフロー
次の図は、サブスクライバーと Analytics Hub の間のやり取りを示しています。
図 2 では、共有リソース、データ エクスチェンジ、リスティング、リンクされたリソースという Analytics Hub の各機能にラベルが付いています。
リンクされたリソース
リンクされたリソースは、Analytics Hub リスティングに登録するときに作成され、サブスクライバーを基盤となる共有リソースに接続します。
リンク済みデータセット
- リンク済みデータセットは、読み取り専用の BigQuery データセットです。これは、共有データセットへのシンボリック リンクとして機能します。リスティングをサブスクライブすると、データセットのコピーではなく、リンク済みデータセットがプロジェクトに作成されます。したがって、サブスクライバーはデータを読み取ることはできますが、その中のオブジェクトを追加することや更新することはできません。リンク済みデータセットを通じて、テーブルやビューなどのオブジェクトをクエリすると、共有データセットのデータが返されます。リンク済みデータセットの詳細については、リスティングの表示とサブスクライブをご覧ください。リンク済みデータセットは、共有データセットのテーブルとビューへのアクセスが認可されています。リンク済みデータセットがあるサブスクライバーは、別途 Identity and Access Management の認可を得ることなく、共有データセットのテーブルとビューにアクセスします。 リンク済みデータセットは、次のオブジェクトをサポートしています。
リンクされた Pub/Sub サブスクリプション(プレビュー)
- 共有トピックのあるリスティングをサブスクライブすると、リンクされた Pub/Sub サブスクリプションがサブスクライバー プロジェクトに作成されます。共有トピックまたはメッセージ データのコピーは作成されません。リンクされた Pub/Sub サブスクリプションのサブスクライバーは、共有トピックにパブリッシュされたメッセージにアクセスできます。サブスクライバーは、追加の Identity and Access Management の認可なしで、共有トピックのメッセージ データにアクセスします。パブリッシャーは、Pub/Sub で直接、または Analytics Hub のサブスクリプションの管理機能でサブスクリプションを管理できます。リンクされた Pub/Sub サブスクリプションの詳細については、Pub/Sub を使用したストリームの共有をご覧ください。
下り(外向き)データ オプション(BigQuery 共有データセットのみ)
下り(外向き)データ オプションを使用すると、パブリッシャーは、サブスクライバーが BigQuery とリンクされたデータセットからデータをエクスポートすることを制限できます。
下り(外向き)データの制限は、リスティング、クエリの結果、またはその両方に対して有効にできます。下り(外向き)データが制限される場合、次の制限が適用されます。
コピー、クローン、エクスポート、スナップショットの各 API は無効になります。
Google Cloud コンソールのコピー、クローン、エクスポート、スナップショットの各オプションは無効になります。
制限付きのデータセットのテーブル エクスプローラへの接続は無効になります。
BigQuery Data Transfer Service が、制限付きのデータセットで無効になります。
リスティングを作成するときに、適切な下り(外向き)データ オプションを設定できます。
制限事項
Analytics Hub には次の制限があります。
共有データセットに含めることができるリンク済みデータセットは、最大 1,000 個です。
共有トピックに設定できる Pub/Sub サブスクリプションは最大 10,000 個です。この上限には、リンクされた Pub/Sub サブスクリプションと、Analytics Hub の外部で作成された Pub/Sub サブスクリプション(Pub/Sub から直接作成したものなど)が含まれます。
リスティングを作成する際、サポートされていないリソースを含むデータセットは共有データセットとして選択できません。Analytics Hub がサポートする BigQuery オブジェクトの詳細については、このドキュメントの共有データセットをご覧ください。
2023 年 7 月 25 日より前に作成されたリンク済みデータセットは、サブスクリプション リソースでバックフィルされません。2023 年 7 月 25 日以降に作成されたサブスクリプションのみが API メソッドで機能します。
パブリッシャーには、BigQuery の次の相互運用性に関する制限が適用されます。
サブスクライバーが、リンクされたデータセット内のビューにクエリを実行できるようにするには、ソース データセットを読み取る明示的な権限が付与されている必要があります。ビューへのアクセス権を付与するには、ベスト プラクティスとして、パブリッシャーが承認済みビューを作成することをおすすめします。承認済みビューを使用すると、サブスクライバーにビューデータへのアクセス権を付与し、基になるソースデータに対するアクセス権は付与しないようにできます。
クエリプランでは、共有ビュークエリとルーティン クエリ(プロジェクト ID を含む)と、承認済みビューに関連する他のデータセットが表示されます。共有ビューやルーティン クエリで機密情報とみなされる暗号鍵などを含めないでください。
共有データセットは、Data Catalog のインデックスに登録されます。サブスクライバーは、共有データセットの更新(テーブルやビューの追加など)を遅延なく利用できるようになります。ただし、たとえば共有データセットに 100 を超えるサブスクライバーやテーブルがある場合、更新が Data Catalog のインデックスに登録されるまで最大 18 時間かかることがあります。インデックス登録の遅延により、サブスクライバーは Google Cloud コンソールで更新されたリソースをすぐに検索できません。
共有トピックは Data Catalog にインデックス登録されますが、リソースタイプをフィルタすることはできません。
一覧表示されたテーブルに行レベルのセキュリティ ポリシーまたはデータ マスキング ポリシーが設定されている場合、サブスクライバーがリンク済みデータセットに対してクエリジョブを実行するには、サブスクライバーが Enterprise または Enterprise Plus を購入している必要があります。エディションの詳細については、BigQuery エディションの概要をご覧ください。
サブスクライバーには、BigQuery の次の相互運用性に関する制限が適用されます。
リンク済みデータセット内のテーブルを参照するマテリアライズド ビューはサポートされていません。
リンク済みデータセット テーブルのスナップショットの作成はサポートされていません。
リンク済みデータセットと 1 TB(物理ストレージ)を超える
JOIN
ステートメントを含むクエリは失敗する可能性があります。この問題を解決するには、サポートにお問い合わせください。リンク済みデータセットのテーブル メタデータを表示するために、
INFORMATION_SCHEMA
ビューでリージョン修飾子を使用することはできません。リンク済みデータセット内のルーティンをクエリする場合、ユーザー定義関数(SQL と JavaScript の両方の UDF)とテーブル関数ルーティン タイプのみをクエリできます。サポートされていないルーティン タイプに対してクエリを実行すると、次のエラー メッセージが表示されます。
Querying routine type type is not yet supported on linked dataset dataset.
使用状況の指標には次の制限が適用されます。
2023 年 7 月 20 日より前にサブスクライブされたリスティングについては、使用状況の指標を取得できません。
num_rows_processed
フィールドとtotal_bytes_processed
フィールドの外部テーブルの使用状況の指標に、不正確なデータが含まれる可能性があります。消費量に関する使用状況の指標は、BigQuery ジョブによる使用のみでサポートされています。次のリソースを使用した消費量はサポートされていません。
ビューの使用状況の指標は、2024 年 4 月 22 日以降のクエリに対してのみ入力されます。
Analytics Hub では、リンクされた Pub/Sub サブスクリプションの使用状況の指標はキャプチャされません(引き続き Pub/Sub で使用状況を直接確認できます)。
Salesforce Data Cloud データのサブスクリプションには、次の制限が適用されます。
- Data Cloud のデータはビューとして共有されます。サブスクライバーは、ビューが参照している基盤となるテーブルにアクセスできません。
サポートされているリージョン
Analytics Hub は、次のリージョンとマルチリージョンでサポートされています。
リージョン
次の表に、Analytics Hub が利用可能な南北アメリカのリージョンを示します。リージョンの説明 | リージョン名 | 詳細 |
---|---|---|
コロンバス(オハイオ州) | us-east5 |
|
ダラス | us-south1 |
低 CO2 |
アイオワ | us-central1 |
低 CO2 |
ラスベガス | us-west4 |
|
ロサンゼルス | us-west2 |
|
モントリオール | northamerica-northeast1 |
低 CO2 |
北バージニア | us-east4 |
|
オレゴン | us-west1 |
低 CO2 |
ソルトレイクシティ | us-west3 |
|
サンパウロ | southamerica-east1 |
低 CO2 |
サンティアゴ | southamerica-west1 |
|
サウスカロライナ | us-east1 |
|
トロント | northamerica-northeast2 |
|
リージョンの説明 | リージョン名 | 詳細 |
---|---|---|
デリー | asia-south2 |
|
香港 | asia-east2 |
|
ジャカルタ | asia-southeast2 |
|
メルボルン | australia-southeast2 |
|
ムンバイ | asia-south1 |
|
大阪 | asia-northeast2 |
|
ソウル | asia-northeast3 |
|
シンガポール | asia-southeast1 |
|
シドニー | australia-southeast1 |
|
台湾 | asia-east1 |
|
東京 | asia-northeast1 |
リージョンの説明 | リージョン名 | 詳細 |
---|---|---|
ベルギー | europe-west1 |
低 CO2 |
フィンランド | europe-north1 |
低 CO2 |
フランクフルト | europe-west3 |
低 CO2 |
ロンドン | europe-west2 |
低 CO2 |
オランダ | europe-west4 |
低 CO2 |
ワルシャワ | europe-central2 |
|
チューリッヒ | europe-west6 |
低 CO2 |
リージョンの説明 | リージョン名 | 詳細 |
---|---|---|
ダンマーム | me-central2 |
|
テルアビブ | me-west1 |
リージョンの説明 | リージョン名 | 詳細 |
---|---|---|
ヨハネスブルグ | africa-south1 |
マルチリージョン
次の表に、Analytics Hub が利用可能なマルチリージョンを示します。マルチリージョンの説明 | マルチリージョン名 |
---|---|
欧州連合の加盟国内のデータセンター1 | EU |
米国内のデータセンター | US |
1 EU
マルチリージョン内のデータは europe-west2
(ロンドン)や europe-west6
(チューリッヒ)のデータセンターには保存されません。
オムニリージョン
次の表に、Analytics Hub が利用可能なオムニリージョンを示します。オムニリージョンの説明 | オムニリージョンの名前 | |
---|---|---|
AWS | ||
AWS - US East(北バージニア) | aws-us-east-1 |
|
AWS 米国西部(オレゴン) | aws-us-west-2 |
|
AWS - アジア太平洋(ソウル) | aws-ap-northeast-2 |
|
AWS - アジア太平洋(シドニー) | aws-ap-southeast-2 |
|
AWS - ヨーロッパ(アイルランド) | aws-eu-west-1 |
|
AWS - ヨーロッパ(フランクフルト) | aws-eu-central-1 |
|
Azure | ||
Azure - East US 2 | azure-eastus2 |
使用例
このセクションでは、Analytics Hub の使用例を説明します。
ある小売業者が、Forecasting という Google Cloud プロジェクトに、リアルタイムの需要予測データを維持しているとします。この需要予測データを、サプライ チェーン システム内で数百のベンダーと共有したいと考えています。Analytics Hub を使用してベンダーとデータを共有する方法は次のとおりです。
Analytics Hub の管理者
Forecasting プロジェクトのオーナーとして、最初に Analytics Hub API を有効にしてから、プロジェクトでデータ エクスチェンジを管理するユーザーに Analytics Hub 管理者のロールを割り当てる必要があります。Analytics Hub 管理者のロールが付与されているユーザーは、Analytics Hub 管理者と呼ばれます。
Analytics Hub の管理者は、次のタスクを実行できます。
組織の Forecasting プロジェクトで、データ エクスチェンジの作成、更新、削除、共有を行います。
他の Analytics Hub 管理者を管理します。
Analytics Hub パブリッシャーのロールを組織の従業員に付与して、パブリッシャーを管理します。一部の従業員にはリスティングの更新、削除、共有のみを許可し、作成は許可しない場合は、Analytics Hub リスティング管理者のロールを付与します。
すべてのベンダーからなる Google グループに Analytics Hub サブスクライバーのロールを付与して、サブスクライバーを管理します。一部のベンダーに、利用可能なエクスチェンジとリスティングに対する表示権限のみを付与する場合は、Analytics Hub 閲覧者のロールを付与します。これらのベンダーは、リスティングをサブスクライブできません。
詳細については、データ エクスチェンジを管理するをご覧ください。
Analytics Hub パブリッシャー
パブリッシャーは、Forecasting プロジェクトまたは別のプロジェクトで、データセットに対して次のリスティングを作成します。
- リスティング A: 需要予測データセット 1
- リスティング B: 需要予測データセット 2
- リスティング C: 需要予測データセット 3
データ プロバイダは、共有データセットの使用状況の指標を追跡できます。使用状況の指標には、次の情報が含まれます。
- 共有データセットに対して実行されるジョブ。
- サブスクライバーのプロジェクトと組織ごとの共有データセットの消費量の詳細。
- ジョブによって処理された行数とバイト数。
詳細については、リスティングを管理するをご覧ください。
Analytics Hub サブスクライバー
サブスクライバーは、データ エクスチェンジで各自がアクセスできるリスティングを閲覧できます。このようなリスティングをサブスクライブし、リンク済みデータセットを作成して、プロジェクトにそれらのデータセットを追加することもできます。その後ベンダーが、これらのリンク済みデータセットに対してクエリを行い、結果をリアルタイムで取得できます。
詳しくは、リスティングを表示して登録するをご覧ください。
料金
データ エクスチェンジやリスティングの管理に追加料金はかかりません。
BigQuery データセットの場合、Analytics Hub パブリッシャーは、データ ストレージに対して課金されます。一方、サブスクライバーは、オンデマンド料金モデルまたは容量ベースの料金モデルに基づいて、共有データに対して実行されるクエリの料金を負担します。料金については、BigQuery の料金をご覧ください。
Pub/Sub の場合、トピック パブリッシャーは、共有トピックと下り(外向き)ネットワーク(該当する場合)に書き込まれた合計バイト数(パブリッシュ スループット)に対して課金されます。サブスクライバーは、リンクされたサブスクリプションと下り(外向き)ネットワーク(該当する場合)から読み取られた合計バイト数(サブスクライブ スループット)に対して課金されます。詳しくは、Pub/Sub の料金をご覧ください。
割り当て
Analytics Hub の割り当てについては、割り当てと上限をご覧ください。
VPC Service Controls
VPC Service Controls の境界が設定されているプロジェクトのデータにパブリッシャーとサブスクライバーがアクセスするために必要な必要な上り(内向き)ルールと下り(外向き)ルールを設定できます。詳細については、Analytics Hub の VPC Service Controls のルールをご覧ください。
次のステップ
- リスティングを表示して登録する方法について詳細を確認する。
- Analytics Hub のユーザーにロールを付与する方法を確認する。