BigQuery 管理简介

本文档介绍了 BigQuery 管理任务以及可帮助您完成这些任务的 BigQuery 功能。

BigQuery 管理员通常执行以下类型的任务:

  • 管理资源,例如项目、数据集和表。
  • 保护资源,以便访问权限仅限于需要它的主账号。
  • 管理工作负载,例如作业、查询和计算容量(预留)。
  • 监控资源,包括配额、作业和计算使用情况。
  • 优化工作负载以获得最佳性能,同时控制费用。
  • 对错误消息、结算问题和配额进行问题排查。

本文档简要介绍了 BigQuery 为帮助您执行这些任务而提供的功能。

如需直接在 Google Cloud 控制台中浏览 BigQuery 数据管理功能,请点击浏览

了解看看

工具

BigQuery 提供了几种可用于管理任务的界面。通常,一个特定任务可以通过多种工具来完成,这使您可以选择最适合的工具。例如,您可以使用 Google Cloud 控制台中的浏览器窗格、bq mk --table 命令或 CREATE TABLE SQL 语句创建表。

  • Google Cloud 控制台。Google Cloud 控制台有多个专门用于 BigQuery 管理的页面。如需了解详情,请参阅使用 Google Cloud 控制台
  • SQL 语句。Google Cloud 控制台中的 BigQuery 页面有一个查询编辑器,您可以在其中使用 DDL 和 DCL 语句执行管理任务。如需了解详情,请参阅数据定义语言 (DDL)数据控制语言 (DCL)

    您可以使用存储过程自动执行使用 SQL 语句的管理任务。如需了解详情,请参阅使用存储过程

  • bq 命令。借助 bq 命令行工具,您可以使用 bq 命令执行许多管理任务。如果您希望使用命令行界面,则可以使用 bq 命令行工具执行 Google Cloud 控制台不支持的任务,在查询或 API 方法中对功能进行编码之前设计其原型。如需了解详情,请参阅使用 bq 命令行工具

管理资源

BigQuery 资源包括组织、文件夹、项目、数据集和表。本部分介绍如何管理组织的资源。

如需了解 BigQuery 资源层次结构,请参阅组织 BigQuery 资源。具体来说,您可以创建组织资源,以便在组织级层执行一些任务,例如设置访问权限控制。

管理数据集

数据集是表的容器。您可以在数据集中创建表,然后将其作为一个组进行管理。例如,您可以配置数据集的默认表到期时间,该时间将应用于数据集中的所有表,除非您将其替换。您可以通过创建数据集的副本来复制一组表,并且可以控制对数据集级层的表的访问权限。

如需详细了解数据集管理,请参阅以下文档:

管理表

在 BigQuery 中,数据存储在表中,您可以在表中查询数据。您可以创建表、将数据从各种类型的源以各种格式加载到表中、根据特定列或按摄取时间对表进行分区、聚簇表、更新表属性和导出表数据。

如需详细了解表管理,请参阅以下文档:

为资源加标签

为了更好地组织管理您的 BigQuery 资源,您可以为数据集、表和视图添加标签。标签是可以附加到资源的键值对。为资源添加标签后,可以根据标签值搜索资源。例如,您可以使用标签,通过添加 dept:salesdept:marketingdept:analytics 等标签按部门进行分组。然后,您可以使用标签按部门细分结算费用

如需了解详情,请参阅标签简介

获取资源信息

您可以通过查询 INFORMATION_SCHEMA 视图来获取 BigQuery 资源的相关信息。BigQuery 会为每种资源类型提供视图。例如,INFORMATION_SCHEMA.TABLES 视图包含表的相关信息。

以下是您可以通过查询 INFORMATION_SCHEMA 视图获取的一些信息示例:

  • 查看表的创建时间。
  • 获取表中各列的名称和数据类型。
  • 查找在项目中运行的所有作业。
  • 获取从基表创建的表快照的列表。
  • 对于数据集、表、视图或例程,获取可用于创建资源的 DDL 语句。
  • 获取用于创建表的选项(例如,表过期时间)。
  • 查找表上的分区和聚簇列。
  • 获取项目分配的预留及其槽容量。

如需了解详情,请参阅 BigQuery INFORMATION_SCHEMA 简介

复制数据

您可能出于各种原因想要创建数据副本,例如防止人为错误,或保留数据以备将来比较。BigQuery 提供了多个从特定时间点复制表数据的选项。

  • 时间旅行。您可能需要访问过去一周内某个表的状态;例如,如果数据因人为错误而损坏。BigQuery 会将表的历史数据保留七天。您可以使用时间旅行功能访问表的近期历史数据。

    如需了解详情,请参阅使用时间旅行访问历史数据

  • 表快照。如果您希望能够访问过去一周的表状态,请考虑定期创建表快照。表快照是轻量级的只读副本,可让您无限期地保留表的状态。例如,借助表快照,您可以将表的当前数据与年初的数据进行比较,这是使用时间旅行无法实现的。您只需为存储基表与其表快照之间不同的数据而付费。

    如需了解详情,请参阅表快照简介

  • 表克隆。 如果要创建表的轻量级可写副本,您可以使用表克隆。您只需为基表与其表克隆之间的不同数据支付存储费用。例如,您可以在测试环境中创建表克隆,以便使用生产数据的副本进行实验而不会影响生产数据,并且无需支付表的完整副本的存储费用。

    如需了解详情,请参阅表克隆简介

跟踪数据沿袭

数据沿袭是 Dataplex 的一项功能,可让您跟踪数据在系统中的移动方式:数据来自何处、传递到何处以及对其应用了哪些转换。如需详细了解数据沿袭如何帮助您跟踪项目中的数据移动,请参阅 Dataplex 中的数据沿袭简介

保护资源安全

BigQuery 安全基于 Google Cloud Identity and Access Management。借助 BigQuery,您可以在多个级层控制对资源的访问权限,包括对组织、文件夹、项目、数据集、表、表列和表行的访问权限。

如需了解如何控制对 BigQuery 资源的访问权限,请参阅数据安全和治理概览

管理工作负载

BigQuery 代表您的用户执行许多任务,包括注入、查询和导出数据。每个任务都由 BigQuery 作业执行。本部分介绍如何监控和管理组织的作业。

管理招聘信息

作业是 BigQuery 代表用户加载、导出、查询或复制数据的操作。当用户使用 Google Cloud 控制台bq 命令行工具SQL 语句API 调用启动其中一项任务时,BigQuery 会自动创建作业来执行任务。

作为 BigQuery 管理员,您可以监控、管理组织作业并对组织作业进行问题排查,以确保组织作业顺畅运行。

如需了解详情,请参阅作业概览

管理预订

BigQuery 在执行查询时,会使用称为槽的计算单元。BigQuery 会根据运行查询的大小和复杂程度,计算运行每个查询所需的槽数。

BigQuery 有两种价格模式,用于对运行查询的槽收费:

  • 按需结算。您的查询使用共享的槽池,您需要为查询处理的字节数付费。
  • 基于容量的结算。您需要为版本分配预留或容量承诺,每个版本都有自己的功能集和价位,以便为您提供最佳工作环境。

这些价格模式按项目应用,因此有些项目使用按需结算,有些项目使用基于容量的结算。

使用按需结算模式,在每月分配的免费用量之后,您需要为每个查询处理的字节数付费。吞吐量受预定义槽配额的限制,这些配额在项目中运行的查询之间共享。

借助 BigQuery 版本结算,您可以通过自动扩缩预留以及可选但更便宜的容量承诺为您的组织分配槽。每个版本的槽都有自己的价位,并提供自己的一组功能。如需详细了解 BigQuery 版本及其关联的功能,请参阅 BigQuery 版本简介

如需详细了解如何管理处理查询的计算容量,请参阅以下文档:

  • 对于槽以及按需结算与基于容量的结算之间的权衡,请参阅预留简介

  • 如需了解基于容量的结算的不同选项(月度或年度承诺),请参阅承诺

  • 如需创建基于容量的槽池(称为槽预留),请参阅使用槽预留

  • 如需向特定项目分配槽预留,请参阅使用预留分配

  • 如需估算要分配给工作负载的适当槽数,请参阅估算槽容量要求

监控资源

Google Cloud 提供了监控和审核资源(包括 BigQuery 资源)的功能。本部分介绍适用于 BigQuery 的 Google Cloud 监控和审核功能。

如需了解详情,请参阅 BigQuery 监控简介

Cloud Monitoring 信息中心

Cloud Monitoring 提供了一个信息中心,用于监控 BigQuery。使用此信息中心查看 BigQuery 突发事件、数据集、表、项目、查询时间和槽利用率的相关信息。

如需了解详情,请参阅查看 Monitoring 信息中心

管理图表和提醒

您可以使用 Cloud Monitoring 根据资源、指标和您指定的任何聚合创建自定义图表。

如需了解详情,请参阅信息中心和图表

您还可以创建提醒政策,以便在已配置的提醒触发时通知您。例如,您可以创建一个提醒,以便在查询的执行时间超过指定的限制时向指定的电子邮件地址发送电子邮件。

如需了解详情,请参阅创建提醒

监控预留

您可以在 Google Cloud 控制台的容量管理页面上监控槽使用量。您可以查看容量承诺并查看槽预留的分配位置。您还可以使用槽 Estimator预览版)根据历史性能指标估算组织的容量要求。

如需了解详情,请参阅监控 BigQuery 预留

配额

Google Cloud 对资源(包括 BigQuery 资源)设定了使用限制,以确保共享资源的公平使用,并保护您免受费用失控的影响。如果需要,您可以使用 Google Cloud 控制台查看具有配额的 BigQuery 资源的使用情况并申请更高配额

如需了解详情,请参阅 BigQuery 配额和限制

审核日志

Cloud Audit Logs 维护一条 Google Cloud 事件(包括 BigQuery 事件)记录。您可以使用 Logs Explorer 查询与 BigQuery 作业、数据集、转移作业等相关的日志。日志信息中心会显示有关近期错误的信息,您可以使用基于日志的指标来计算与给定过滤条件匹配的日志条目。

如需了解详情,请参阅 Google Cloud 日志记录文档

优化工作负载

您可以优化 BigQuery 配置,以控制存储和查询处理费用。

可靠性指导

本文档介绍 BigQuery 的可靠性,包括对 BigQuery 中的可用性、耐用性、数据一致性、性能一致性和数据恢复的数据分析,以及错误处理注意事项。如需详细了解可靠性和灾难规划,请参阅了解可靠性

问题排查

除了本文档中介绍的用于监控和管理组织的 BigQuery 系统的功能之外,以下资源还可用于排查可能出现的问题:

如果您需要其他帮助,请参阅获取支持

后续步骤