BigQuery 是一个 PB 级的分析数据仓库,可用于对大量数据近乎实时地运行 SQL 查询。
在 BigQuery 中,为视图授予数据集访问权限也称为创建已获授权的视图。已获授权的视图可让您与特定用户和群组共享查询结果,而无需为其授予底层表的访问权限。您还可以使用视图的 SQL 查询来限制用户可查询的列(字段)。在本教程中,您将创建一个已获授权的视图。
目标
本教程介绍如何完成以下任务:
- 创建数据集并对其应用访问权限控制
- 向项目分配访问权限控制
- 创建一个已获授权的视图,它用于限制用户可查询的数据
费用
BigQuery 是一款付费产品,本教程中涉及的操作将产生 BigQuery 使用费。BigQuery 提供一些有特定限额的免费资源。如需了解详情,请参阅 BigQuery 免费操作和免费层级。
准备工作
开始学习本教程前,请先使用 Google Cloud Console 创建或选择项目。
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
- 新项目会自动启用 BigQuery。如需在预先存在的项目中激活 BigQuery,请转到
启用 BigQuery API。
- 可选:为项目启用结算功能。如果您不想启用结算功能或提供信用卡,本文档中的步骤仍然有效。BigQuery 提供执行这些步骤的沙盒。如需了解详情,请参阅启用 BigQuery 沙盒。
创建源数据集
首先,创建一个数据集来存储源数据。在本教程中,您将通过查询 GitHub 公开数据集填充源数据集中的表。源数据集中的数据包含您不希望数据分析师看到的信息。因此,您使用已获授权的视图来限制对数据的访问。
要创建源数据集,请执行以下操作:
控制台
在 Google Cloud 控制台中,打开 BigQuery 页面。
在探索器窗格中,选择您要在其中创建数据集的项目。
展开
操作选项,然后点击创建数据集。在数据集 ID 部分,输入
github_source_data
。保留其他默认设置,然后点击创建数据集。
SQL
在 Google Cloud 控制台中,转到 BigQuery 页面。
在查询编辑器中,输入以下语句:
CREATE SCHEMA github_source_data;
点击
运行。
如需详细了解如何运行查询,请参阅运行交互式查询。
Java
试用此示例之前,请按照 BigQuery 快速入门:使用客户端库中的 Java 设置说明进行操作。如需了解详情,请参阅 BigQuery Java API 参考文档。
如需向 BigQuery 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为客户端库设置身份验证。
Python
试用此示例之前,请按照 BigQuery 快速入门:使用客户端库中的 Python 设置说明进行操作。如需了解详情,请参阅 BigQuery Python API 参考文档。
如需向 BigQuery 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为客户端库设置身份验证。
创建源数据集后,您可以使用 SQL 查询在其中填充表。此查询会从 GitHub 公开数据集中检索数据。
控制台
在 Google Cloud 控制台中,打开 BigQuery 页面。
将以下查询复制并粘贴到编辑器窗格中。
SELECT commit, author, committer, repo_name FROM `bigquery-public-data.github_repos.commits` LIMIT 1000;
点击更多,然后选择查询设置。
在目标位置部分中,选择为查询结果设置目标表。
对于数据集,请输入
PROJECT_ID.github_source_data
。请将 PROJECT_ID 替换为您的项目 ID。对于表 ID,输入
github_contributors
。点击保存。
点击运行。
完成查询后,点击 github_contributors,然后点击预览,验证数据是否已写入表中。
Java
试用此示例之前,请按照 BigQuery 快速入门:使用客户端库中的 Java 设置说明进行操作。如需了解详情,请参阅 BigQuery Java API 参考文档。
如需向 BigQuery 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为客户端库设置身份验证。
Python
试用此示例之前,请按照 BigQuery 快速入门:使用客户端库中的 Python 设置说明进行操作。如需了解详情,请参阅 BigQuery Python API 参考文档。
如需向 BigQuery 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为客户端库设置身份验证。
创建用于存储视图的数据集
创建源数据集后,您需要创建一个新的独立数据集,以存储要与数据分析师共享的授权视图。在稍后的步骤中,您将向授权视图授予对源数据集内数据的访问权限。您的数据分析师将有权访问已获授权的视图,但无权直接访问源数据。
已获授权的视图应在与源数据不同的数据集中创建。这样,数据所有者可以为用户提供对已授权的视图的访问权限,而无需同时授予对底层数据的访问权限。源数据数据集和已获授权的视图数据集必须位于同一地区位置。
要创建用于存储视图的数据集,请执行以下操作:
控制台
在 Google Cloud 控制台中,打开 BigQuery 页面。
在探索器面板中,选择您要在其中创建数据集的项目。
展开
操作选项,然后点击创建数据集。在数据集 ID 部分,输入
shared_views
。保留其他默认设置,然后点击创建数据集。
SQL
在 Google Cloud 控制台中,转到 BigQuery 页面。
在查询编辑器中,输入以下语句:
CREATE SCHEMA shared_views;
点击
运行。
如需详细了解如何运行查询,请参阅运行交互式查询。
Java
试用此示例之前,请按照 BigQuery 快速入门:使用客户端库中的 Java 设置说明进行操作。如需了解详情,请参阅 BigQuery Java API 参考文档。
如需向 BigQuery 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为客户端库设置身份验证。
Python
试用此示例之前,请按照 BigQuery 快速入门:使用客户端库中的 Python 设置说明进行操作。如需了解详情,请参阅 BigQuery Python API 参考文档。
如需向 BigQuery 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为客户端库设置身份验证。
在新数据集中创建视图
在新数据集中,您可以创建想要授权的视图,即您与数据分析师共享的视图。该视图是使用 SQL 查询创建的,其中未包含您不希望数据分析师看到的列。
在本教程中,您的共享视图不包含除作者姓名以外的作者信息,且不包含除提交者姓名以外的提交者信息。
要在新数据集中创建视图,请执行以下操作:
控制台
在 Google Cloud 控制台中,打开 BigQuery 页面。
将以下查询复制并粘贴到编辑器窗格中。请将
PROJECT_ID
替换为您的项目 ID。SELECT commit, author.name AS author, committer.name AS committer, repo_name FROM `PROJECT_ID.github_source_data.github_contributors`;
点击保存 > 保存视图。
在保存视图对话框中,执行以下操作:
- 在 Project 部分中,验证是否已选定您的项目。
- 对于数据集,输入
shared_views
。 - 对于表,输入
github_analyst_view
。 - 点击保存。
SQL
在 Google Cloud 控制台中,转到 BigQuery 页面。
在查询编辑器中,输入以下语句:
CREATE VIEW shared_views.github_analyst_view AS ( SELECT commit, author.name AS author, committer.name AS committer, repo_name FROM `PROJECT_ID.github_source_data.github_contributors` );
将
PROJECT_ID
替换为您的项目 ID。点击
运行。
如需详细了解如何运行查询,请参阅运行交互式查询。
Java
试用此示例之前,请按照 BigQuery 快速入门:使用客户端库中的 Java 设置说明进行操作。如需了解详情,请参阅 BigQuery Java API 参考文档。
如需向 BigQuery 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为客户端库设置身份验证。
Python
试用此示例之前,请按照 BigQuery 快速入门:使用客户端库中的 Python 设置说明进行操作。如需了解详情,请参阅 BigQuery Python API 参考文档。
如需向 BigQuery 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为客户端库设置身份验证。
向数据分析师分配项目级 IAM 角色
为了查询视图,您的数据分析师需要具有运行查询作业的权限。bigquery.user
角色具有在项目中运行作业(包括查询作业)的权限。如果您向用户或群组授予项目级层的 bigquery.user
角色,则用户可创建数据集,并可针对这些数据集中的表运行查询作业。bigquery.user
角色不针对用户尚未创建的数据集授予用户查询数据、查看表数据或查看表架构详细信息的权限。
向数据分析师分配项目级层的 bigquery.user
角色后,他们也无法查看或查询包含视图所查询的表的数据集中的表数据。bigquery.user
角色也不会授予用户更新视图的权限。应向企业中的大多数人(数据科学家、商业智能分析师和数据分析师)分配项目级层的 bigquery.user
角色。
当您将群组添加到 IAM 角色时,电子邮件地址和网域必须与某个有效的 Google 账号或 Google Apps 账号相关联。
如需将数据分析师群组分配给项目级层的 bigquery.user
角色,请执行以下操作:
控制台
在 Google Cloud Console 中打开 IAM 网页。
确保在顶部栏的项目选择器中选择您的项目。
点击
授予访问权限。在授予对以下内容的访问权限对话框中:
- 在新的主账号框中,输入包含数据分析师的群组,例如
data_analysts@example.com
。 - 在选择角色框中,搜索 BigQuery User 角色并将其选中。
- 点击保存。
- 在新的主账号框中,输入包含数据分析师的群组,例如
向包含视图的数据集分配访问权限控制
为了让数据分析师能够查询视图,需要针对包含该视图的数据集向他们授予 bigquery.dataViewer
角色。bigquery.user
角色为您的数据分析师提供创建查询作业所需的权限。但是,他们无法成功查询视图,除非他们还拥有对包含该视图的数据集的 bigquery.dataViewer
访问权限。
要向数据分析师提供对数据集的 bigquery.dataViewer
访问权限,请执行以下操作:
控制台
在 Google Cloud 控制台中,打开 BigQuery 页面。
在浏览器窗格中,选择
shared_views
数据集。点击 > 权限。
共享在数据集权限窗格中,点击添加主账号。
在新的主账号框中,输入包含数据分析师的群组(例如
data_analysts@example.com
)。点击选择角色,然后选择 BigQuery > BigQuery Data Viewer。
点击保存。
点击关闭。
Java
试用此示例之前,请按照 BigQuery 快速入门:使用客户端库中的 Java 设置说明进行操作。如需了解详情,请参阅 BigQuery Java API 参考文档。
如需向 BigQuery 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为客户端库设置身份验证。
Python
试用此示例之前,请按照 BigQuery 快速入门:使用客户端库中的 Python 设置说明进行操作。如需了解详情,请参阅 BigQuery Python API 参考文档。
如需向 BigQuery 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为客户端库设置身份验证。
向视图授予访问源数据集的权限
当您为包含视图的数据集创建访问权限控制后,会将视图添加为源数据集中已获授权的视图。此授权为视图(而非数据分析师群组)提供源数据的访问权限。
要向视图授予访问源数据的权限,请执行以下操作:
控制台
在 Google Cloud 控制台中,打开 BigQuery 页面。
在浏览器窗格中,选择
github_source_data
数据集。点击
共享,然后选择向视图授权。在打开的已获授权的视图窗格的已获授权的视图字段中,输入
github_analyst_view
视图。点击添加授权。
github_analyst_view
视图现在有权访问源数据集中的数据。
Java
试用此示例之前,请按照 BigQuery 快速入门:使用客户端库中的 Java 设置说明进行操作。如需了解详情,请参阅 BigQuery Java API 参考文档。
如需向 BigQuery 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为客户端库设置身份验证。
Python
试用此示例之前,请按照 BigQuery 快速入门:使用客户端库中的 Python 设置说明进行操作。如需了解详情,请参阅 BigQuery Python API 参考文档。
如需向 BigQuery 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为客户端库设置身份验证。
验证配置
配置完成后,数据分析师群组(例如 data_analysts
)的成员可以通过查询视图来验证配置。
要验证配置,请执行以下操作:
SQL
让数据分析师群组的成员执行以下操作:
在 Google Cloud 控制台中,转到 BigQuery 页面。
在查询编辑器中,输入以下语句:
SELECT * FROM `PROJECT_ID.shared_views.github_analyst_view`;
将
PROJECT_ID
替换为您的项目 ID。点击
运行。
如需详细了解如何运行查询,请参阅运行交互式查询。
完整源代码
下面是本教程的完整源代码,供您参考。
Java
试用此示例之前,请按照 BigQuery 快速入门:使用客户端库中的 Java 设置说明进行操作。如需了解详情,请参阅 BigQuery Java API 参考文档。
如需向 BigQuery 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为客户端库设置身份验证。
Python
试用此示例之前,请按照 BigQuery 快速入门:使用客户端库中的 Python 设置说明进行操作。如需了解详情,请参阅 BigQuery Python API 参考文档。
如需向 BigQuery 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为客户端库设置身份验证。
清理
为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用,请删除包含这些资源的项目,或者保留项目但删除各个资源。
- 在 Google Cloud 控制台中,进入管理资源页面。
- 在项目列表中,选择要删除的项目,然后点击删除。
- 在对话框中输入项目 ID,然后点击关闭以删除项目。