BigQuery 概览
BigQuery 是一个 AI 就绪型全托管式数据平台,可帮助您使用机器学习、搜索、地理空间分析和商业智能等内置功能管理和分析数据。BigQuery 的无服务器架构可让您使用 SQL 和 Python 等语言来回答组织面临的最大问题,而无需管理基础架构。
BigQuery 提供了一种统一的方式来处理结构化和非结构化数据,并支持 Apache Iceberg、Delta 和 Hudi 等开放表格式。BigQuery 流式处理支持持续的数据提取和分析,而 BigQuery 的可扩缩、分布式分析引擎可让您在几秒钟内查询 TB 级数据,在几分钟内查询 PB 级数据。
BigQuery 的架构由两部分组成:一个用于注入、存储和优化数据的存储层,一个用于提供分析功能的计算层。得益于 Google 的 PB 级网络能够在这些计算层和存储层之间实现必要的通信,它们可以彼此独立地高效运行。
传统数据库通常必须在读写操作和分析操作之间共享资源。这可能会导致资源冲突,并且在将数据写入存储空间或从存储空间读取数据时,可能会降低查询速度。当需要资源来执行数据库管理任务(例如分配或撤消权限)时,共享资源池可能会进一步紧张。BigQuery 的计算层和存储层分离可让每一层动态分配资源,而不会影响另一层的性能或可用性。
这种分离原则可让 BigQuery 加快创新速度,因为存储和计算改进可以独立部署,而不会造成停机或对系统性能产生负面影响。此外,还必须提供全托管式无服务器数据仓库,以供 BigQuery 工程团队处理更新和维护。这样一来,您无需预配或手动扩缩资源,便可以专注于提供价值,而不是专注于传统的数据库管理任务。
BigQuery 界面包括 Google Cloud 控制台界面和 BigQuery 命令行工具。开发者和数据科学家可以将客户端库与熟悉的编程语言(包括 Python、Java、JavaScript 和 Go)以及 BigQuery 的 REST API 和 RPC API 搭配使用,以转换和管理数据。ODBC 和 JDBC 驱动程序可与现有应用(包括第三方工具和实用程序)进行交互。
作为数据分析师、数据工程师、数据仓库管理员或数据科学家,BigQuery 可帮助您加载、处理和分析数据,从而做出关键业务决策。
BigQuery 使用入门
只需几分钟即可开始探索 BigQuery。利用 BigQuery 的免费用量层级或免费沙盒开始加载和查询数据。
- BigQuery 的沙盒:开始使用 BigQuery 沙盒,无风险且免费。
- Google Cloud 控制台快速入门:熟悉 BigQuery 控制台的强大功能。
- 公共数据集:通过浏览公共数据集计划中的大型真实数据,体验 BigQuery 的性能。
探索 BigQuery
BigQuery 的无服务器基础架构让您可以专注于数据而不是资源管理。BigQuery 结合了云端数据仓库和强大的分析工具。
BigQuery 存储
BigQuery 使用针对分析查询进行了优化的列式存储格式来存储数据。BigQuery 在表、行和列中显示数据,并完全支持数据库事务语义 (ACID)。BigQuery 存储会自动跨多个位置进行复制,以提供高可用性。
- 了解数据仓库和数据集市中 BigQuery 资源的常见组织模式。
- 了解数据集,这是 BigQuery 的表和视图的顶层容器。
- 使用以下方式将数据加载到 BigQuery 中:
- BigQuery Data Transfer Service 可自动注入数据。
如需了解详情,请参阅 BigQuery 存储概览。
BigQuery 分析
描述性分析和规范性分析使用包括商业智能、临时性分析、地理空间分析和机器学习。您可以使用外部表或联合查询(包括存储在 Google 云端硬盘中的 Cloud Storage、Bigtable、Spanner 或 Google 表格)查询存储在 BigQuery 中的数据,或查询数据位于何处。
- ANSI 标准 SQL 查询(SQL:2011 支持),其中包括对联接、嵌套和重复字段、分析和聚合函数、多语句查询以及包含地理空间分析的各种空间函数(地理信息系统)的支持。
- 创建视图以共享您的分析。
- 商业智能工具支持,包括 BI Engine 和 Looker Studio、Looker、Google 表格以及第三方工具(如 Tableau 和 Power BI)。
- BigQuery ML 提供机器学习和预测分析。
- BigQuery Studio 为 Python 笔记本和已保存的查询提供了 Python 笔记本和版本控制等功能。这些功能让您可更轻松地在 BigQuery 中完成数据分析和机器学习 (ML) 工作流。
- 使用外部表和联合查询来查询 BigQuery 外部的数据。
如需了解详情,请参阅 BigQuery 分析概览。
BigQuery 管理
BigQuery 可集中管理数据和计算资源,而 Identity and Access Management (IAM) 可帮助您利用 Google Cloud 中所用的访问模型保护这些资源。Google Cloud 安全最佳实践提供了一种可靠且灵活的方法,该方法包括传统的边界安全机制或更复杂、更精细的深度防御方法。
- 数据安全和治理简介可帮助您了解数据治理,以及可能需要采取哪些控制措施来保护 BigQuery 资源。
- 作业是 BigQuery 代表您执行的操作,用于加载、导出、查询或复制数据。
- 借助预留,您可以在按需价格和基于容量的价格之间切换。
如需了解详情,请参阅 BigQuery 管理简介。
BigQuery 资源
探索 BigQuery 资源:
- 版本说明提供功能、更改和弃用的更新日志。
分析和存储的价格。另请参阅:BigQuery ML、BI Engine 和 Data Transfer Service 价格。
位置定义了创建和存储数据集的位置(区域和多区域位置)。
Stack Overflow 托管着一个互动社区,该社区由使用 BigQuery 的开发者和分析师组成。
BigQuery 支持团队提供 BigQuery 方面的帮助。
Google BigQuery: The Definitive Guide: Data Warehousing, Analytics, and Machine Learning at Scale(作者:Valliappa Lakshmanan 和 Jordan Tigani)介绍了 BigQuery 的工作原理并提供了关于如何使用该服务的端到端演示。
API、工具和参考文档
适用于 BigQuery 开发者和分析师的参考资料:
- 如需详细了解如何使用 GoogleSQL,请参阅 SQL 查询语法。
- BigQuery API 和客户端库概述了 BigQuery 的功能及其用法。
- BigQuery 代码示例为 C#、Go、Java、Node.js、Python、Ruby 客户端库提供了数百个代码段。也可以查看示例浏览器。
- DML、DDL 和用户定义的函数 (UDF) 语法允许您管理和转换 BigQuery 数据。
- bq 命令行工具参考文档记录了
bq
CLI 的语法、命令、标志和参数。 - ODBC/JDBC 集成将 BigQuery 连接到您现有的工具和基础架构。
BigQuery 角色和资源
BigQuery 可满足具有以下角色和职责的数据专业人员的需求。
数据分析师
帮助您执行以下操作的任务指导:
- 使用 SQL 查询语法通过交互式查询或批量查询来查询 BigQuery 数据
- 引用 SQL 表达式、函数和运算符来查询数据
使用工具分析和直观呈现 BigQuery 数据,包括 Looker、Looker 数据洞察和 Google 表格。
使用地理空间分析来通过 BigQuery 的地理信息系统分析和直观呈现地理空间数据
使用以下各项优化查询性能:
如需直接在 Google Cloud 控制台中浏览 BigQuery 的数据分析功能,请点击浏览。
数据管理员
帮助您执行以下操作的任务指导:
- 使用预留管理费用,以平衡按需价格和基于容量的价格。
- 了解数据安全和治理,以按dataset、表、列、行或视图保护数据。
- 使用表快照备份数据,以保留在特定时间点表的内容。
- 查看 BigQuery INFORMATION_SCHEMA,以了解数据集、作业、访问权限控制、预留、表等等的元数据。
- 使用作业让 BigQuery 代表您加载、导出、查询或复制数据。
- 监控日志和资源以了解 BigQuery 和工作负载。
如需了解详情,请参阅 BigQuery 管理简介。
如需直接在 Google Cloud 控制台中浏览 BigQuery 数据管理功能,请点击浏览。
数据科学家
帮助您使用 BigQuery ML 的机器学习来执行以下操作的任务指导:
- 了解机器学习模型的端到端用户体验历程
- 针对 BigQuery ML 管理访问权限控制
- 创建并训练 BigQuery ML 模型,包括:
- 线性回归预测
- 二元逻辑和多类别逻辑回归分类
- K-means 聚类(用于数据细分)
- 使用 Arima+ 模型进行时序预测
数据开发者
帮助您执行以下操作的任务指导:
- 使用以下方式将数据加载到 BigQuery 中:
使用代码示例库,包括:
Google Cloud 示例浏览器(适用于 BigQuery)
BigQuery 视频教程
以下系列视频教程将帮助您开始使用 BigQuery:
标题 |
说明 |
---|---|
如何开始使用 BigQuery (17:18) | 简要介绍 BigQuery 及其使用方法。具体包括:ETL 流水线、价格和优化、BigQuery ML 和 BI Engine,最后是 Google Cloud 控制台中的 BigQuery 的演示。 |
什么是 BigQuery?(4:39) | 简要介绍 BigQuery 如何注入和存储大量数据,以帮助分析师和开发者处理数据 |
使用 BigQuery 沙盒 (3:05) | 如何设置 BigQuery 沙盒,让您无需提供信用卡即可运行查询 |
提出问题和运行查询 (5:11) | 如何在 BigQuery 界面中编写和运行 SQL 查询 - 以及选择胜出的参赛者运动衫号码 |
将数据加载到 BigQuery 中 (5:31) | 如何实时注入和分析数据,或者仅对数据进行一次性批量分析 - 包括猫与狗 |
直观呈现查询结果 (5:38) | 数据可视化如何使复杂数据集更易于理解和吸收 |
使用 IAM 管理访问权限 (5:23) | 如何通过 IAM 权限和访问权限控制允许其他用户在 BigQuery 中查询您的数据集 |
保存和共享查询 (6:17) | 如何在 BigQuery 中轻松无忧地保存和共享查询 |
使用授权视图保护敏感数据 (7:12) | 如何通过设置自定义访问权限控制轻松与不同的用户共享数据集 |
使用 BigQuery 查询外部数据 (5:49) | 如何在 BigQuery 中设置外部数据源,以及如何查询 Cloud Storage、Cloud SQL、Google 云端硬盘等等中的数据 |
什么是用户定义的函数?(4:59) | 如何在 BigQuery 中创建用户定义的函数 (UDF) 以分析数据集 |
后续步骤
- 如需大致了解 BigQuery 存储空间,请参阅 BigQuery 存储空间概览。
- 如需大致了解 BigQuery 查询,请参阅 BigQuery 分析概览。
- 如需大致了解 BigQuery 管理,请参阅 BigQuery 管理简介。
- 如需大致了解 BigQuery 安全性,请参阅数据安全和治理概览。