Analytics Hub 简介

Analytics Hub 是一个数据交换平台,可让您在强大的安全和隐私框架内跨组织边界大规模共享数据和数据洞见。借助 Analytics Hub,您可以发现和访问由各种数据提供商精选的数据库。此数据库还包括 Google 提供的数据集。

例如,您可以使用 Analytics Hub 通过第三方和 Google 数据集增强您的分析和机器学习计划。

作为 Analytics Hub 用户,您可以执行以下任务:

  • 作为 Analytics Hub 发布者,您可以通过与合作伙伴网络或您自己的组织内实时共享数据来实现创收。列表可让您共享数据,而无需复制共享数据。您可以构建具有精细权限的分析就绪数据源目录,让您可以将数据交付给适当的受众。

  • 作为 Analytics Hub 订阅者,您可以发现您要查找的数据,将共享数据与现有数据相结合,并利用 BigQuery 的内置功能。订阅列表时,系统会在您的项目中创建关联的数据集

  • 作为 Analytics Hub 查看者,您可以在 Analytics Hub 中浏览您有权访问的数据集,以及请求发布者访问共享数据。

  • 作为 Analytics Hub 管理员,您可以创建启用数据共享的数据交换,然后向数据发布者和订阅者授予访问这些数据交换的权限。

如需详细了解 Analytics Hub 用户角色,请参阅配置 Analytics Hub 角色

架构

Analytics Hub 基于 BigQuery 数据集的发布和订阅模型构建。通过将 BigQuery 的架构中的计算和存储分离出来,数据发布者可以根据需要与任意数量的订阅者共享数据,而无需创建数据的多个副本。发布者只需为数据存储付费,而订阅者只需为针对共享数据运行的查询付费。以下各部分详细介绍了 Analytics Hub 中的发布者和订阅者工作流。

发布者工作流

下图介绍了发布者如何与 Analytics Hub 进行交互:

Analytics Hub 发布者与 Analytics Hub 之间的交互。
图 1.Analytics Hub 发布者工作流。

在图 1 中,以下功能已添加标签:共享数据集数据交换列表

共享数据集
共享数据集是 BigQuery 数据集,用作 Analytics Hub 中数据共享的单位。作为发布者,您可以在项目中创建或使用现有 BigQuery 数据集,其中包含要交付给订阅者的对象集合,例如表和视图。
数据交换
数据交换是一个用于实现自助数据共享的容器。它包含对共享数据集进行引用的列表。发布者和管理员可以使用 Analytics Hub 在交换和列表级层向订阅者授予访问权限。此方法有助于避免明确授予对底层共享数据集的访问权限。Analytics Hub 订阅者可以浏览数据交换、发现它们可以访问的数据以及订阅共享数据集。数据交换可以是以下类型:
  • 不公开数据交换。默认情况下,数据交换是不公开的,仅有权访问该交换的用户或群组才能查看或订阅数据。
  • 公开数据交换。默认情况下,数据交换是不公开的,仅有权访问该交换的用户或群组才能查看或订阅其清单。但是,您可以选择将数据交换公开。Google Cloud 用户(allauthenticated 用户)可以发现订阅公共数据交换中的清单。如需详细了解公开数据交换,请参阅将数据交换公开

作为 Analytics Hub 管理员,您可以在 Analytics Hub 中创建多个数据交换并管理其他 Analytics Hub 用户。

列表
清单是对发布者在数据交换中列出的共享数据集的引用。作为发布者,您可以创建列表并指定数据集说明、要在数据集上运行的查询示例、任何相关文档的链接,以及可以帮助订阅者使用数据集的任何其他信息。如需了解详情,请参阅管理列表。根据为清单设置的 Identity and Access Management (IAM) 政策以及包含清单的数据交换类型,清单可以是以下两种类型:
  • 公开清单。它与所有 Google Cloud 用户(allauthenticated 用户)共享。公开数据交换中的列表是公开的列表。这些列表可以是对免费公共数据集或商业数据集的引用。如果列表属于商业数据集,则订阅者可以申请对列表的访问权限,数据提供商会直接联系这些订阅者。
  • 非公开清单。该列表直接与个人或群组共享。例如,非公开列表可以引用您与组织内的其他内部团队共享的营销指标数据集。

订阅者工作流

下图介绍了订阅者如何与 Analytics Hub 进行交互:

Analytics Hub 订阅者与 Analytics Hub 之间的交互。
图 2.Analytics Hub 订阅者工作流。

在图 2 中,以下 Analytics Hub 功能已添加标签:共享数据集数据交换列表关联的数据集

关联的数据集
关联的数据集是一个只读 BigQuery 数据集,用作共享数据集的符号链接。如果订阅列表,则会在您的项目中创建关联的数据集,而不是数据集的副本,因此订阅者可以读取数据,但无法在其中添加或更新对象。通过关联的数据集查询表和视图等对象时,系统将返回共享数据集中的数据。如需详细了解关联数据集,请参阅查看和订阅列表。关联的数据集有权访问共享数据集的表和视图。拥有关联数据集的订阅者无需任何额外的 Identity and Access Management 授权,即可访问共享数据集的表和视图。

限制

Analytics Hub 具有以下限制:

  • 共享数据集和数据交换的所有者无法查看订阅指标。

  • 如果删除项目,则不会删除其中的数据交换。您需要先手动删除这些数据交换,然后再删除项目。

  • 如果删除具有订阅者的共享数据集,则不会删除关联的数据集。订阅者需要从其项目中手动删除这些关联的数据集

  • 如果您为使用客户管理的加密密钥的共享数据集创建列表,则订阅者将无法获取访问数据集所需的 Cloud KMS 密钥。

  • 共享数据集最多可以有 1000 个关联的数据集。每个共享数据集的所有订阅者最多可以有 1,000 个(合计)关联的数据集。

  • 可以使用 Analytics Hub 共享以下 BigQuery 对象:

    创建列表时,您无法选择具有不受支持的资源的数据集作为共享数据集。

  • 如果您是发布者,则以下 BigQuery 互操作性适用于您:

    • 使用流式插入BigQuery Storage Write API 将数据流式插入到共享数据集可能会导致关联的数据集

    • 共享数据集支持列级行级安全性

    • 如果共享数据集中的视图不包含对其源数据的完全限定 URI 引用,则订阅者在查询该数据集时将无法获得正确的结果。为避免此问题,请使用完全限定的引用,例如 PROJECT_NAME.DATASET_NAME.TABLE_NAME

    • 共享数据集会在 Data Catalog 中编入索引。共享数据集的更新(例如添加表或视图)可供订阅者无延迟地使用。但在某些情况下,例如,当共享数据集中有超过一百个订阅者或表时,更新最多可能需要长达 18 小时才能在 Data Catalog 中编入索引。由于索引延迟,订阅者无法立即在控制台中搜索这些更新后的资源。

  • 如果您是订阅者,则以下 BigQuery 互操作性适用于您:

    • 不支持在关联的数据集资源上使用 BigQuery Storage Read API

    • 不支持关联的数据集资源上的时间旅行。

    • 不支持引用关联数据集中的表的具体化视图。

    • 不支持截取关联的数据集表的快照

  • 如果关联的数据集与共享数据集不在同一位置,则对查询大小超过 5 GiB 的关联数据集表的读取操作可能会失败。此错误可能会自动解决。您还可以与支持团队联系来解决此问题。

  • 您不能将区域限定符INFORMATION_SCHEMA 视图结合使用来查看关联数据集的表元数据。

支持的区域

以下区域和多区域支持 Analytics Hub。

区域

下表列出了可使用 Analytics Hub 的美洲区域。
区域说明 区域名称 详情
爱荷华 us-central1 叶形图标 二氧化碳排放量低
拉斯维加斯 us-west4
洛杉矶 us-west2
蒙特利尔 northamerica-northeast1 叶形图标 二氧化碳排放量低
北弗吉尼亚 us-east4
俄勒冈 us-west1 叶形图标 二氧化碳排放量低
盐湖城 us-west3
圣保罗 southamerica-east1 叶形图标 二氧化碳排放量低
圣地亚哥 southamerica-west1
南卡罗来纳 us-east1
多伦多 northamerica-northeast2
下表列出了亚太地区可使用 Analytics Hub 的地区。
区域说明 区域名称 详情
德里 asia-south2
香港 asia-east2
雅加达 asia-southeast2
墨尔本 australia-southeast2
孟买 asia-south1
大阪 asia-northeast2
首尔 asia-northeast3
新加坡 asia-southeast1
悉尼 australia-southeast1
台湾 asia-east1
东京 asia-northeast1
下表列出了欧洲可使用 Analytics Hub 的区域。
区域说明 区域名称 详情
比利时 europe-west1 叶形图标 二氧化碳排放量低
芬兰 europe-north1 叶形图标 二氧化碳排放量低
法兰克福 europe-west3
伦敦 europe-west2
荷兰 europe-west4
华沙 europe-central2
苏黎世 europe-west6 叶形图标 二氧化碳排放量低

多区域

下表列出了可使用 Analytics Hub 的多区域。
多区域说明 多区域名称
欧盟成员国的数据中心1 EU
美国的数据中心 US

1 位于 EU 多区域的数据不会存储在 europe-west2(伦敦)或 europe-west6(苏黎世)数据中心中。

用例示例

本部分举例说明了如何使用 Analytics Hub。

假设您是零售商,并且您的组织在名为 Forecasting 的 Google Cloud 项目中具有实时需求预测数据。您希望与供应链系统中数百个供应商共享此需求预测数据。下面说明了如何通过 Analytics Hub 与供应商共享数据:

Analytics Hub 管理员

作为 Forecasting 项目的所有者,您必须先启用 Analytics Hub API,然后将 Analytics Hub Admin 角色分配给管理项目中数据交换的用户。具有 Analytics Hub Admin 角色的用户称为 Analytics Hub 管理员。

Analytics Hub 管理员可以执行以下任务:

  • 在组织的 Forecasting 项目中创建、更新、删除和共享数据交换。

  • 管理其他 Analytics Hub 管理员

  • 通过向组织的员工授予 Analytics Hub Publisher 角色来管理发布者。如果您希望某些员工只能更新、删除和共享列表,但不能创建列表,则可以向其授予 Analytics Hub Listing Admin 角色。

  • 通过向由所有供应商组成的 Google 群组授予 Analytics Hub Subscriber 角色来管理订阅者。如果您希望某些供应商只能查看可用的交换和列表,则可以向其授予 Analytics Hub Viewer 角色。这些供应商将无法订阅列表。

如需了解详情,请参阅管理数据交换

Analytics Hub 发布者

发布者在 Forecasting 项目或其他项目中为其数据集创建以下列表:

  • 列表 A:需求预测数据集 1
  • 列表 B:需求预测数据集 2
  • 列表 C:需求预测数据集 3

如需了解详情,请参阅管理列表

Analytics Hub 订阅者

订阅者可以在数据交换中浏览其有权访问的列表。他们还可以订阅这些列表,以及通过创建关联的数据集将这些数据集添加到项目中。然后,供应商可以对这些关联的数据集运行查询,并实时检索结果。

如需了解详情,请参阅查看和订阅列表

价格

管理数据交换或列表无需支付额外费用。Analytics Hub 发布者按数据存储量付费,而订阅者根据按需或固定费率价格模式,为针对共享数据运行的查询付费。如需了解价格,请参阅 BigQuery 价格

配额

如需了解 Analytics Hub 配额,请参阅配额和限制

后续步骤