BigQuery 概览
BigQuery 是一种全代管式企业数据仓库,可帮助您使用机器学习、地理空间分析和商业智能等内置功能管理和分析数据。BigQuery 的无服务器架构可让您使用 SQL 查询来回答组织面临的最大问题,而无需管理任何基础设施。借助联合查询,您可以从外部源读取数据,而流式传输则支持连续的数据更新。BigQuery 的可扩缩、分布式分析引擎可让您在几秒钟内查询 TB 级数据,在几分钟内查询 PB 级数据。
BigQuery 的架构由两部分组成:一个用于注入、存储和优化数据的存储层,一个用于提供分析功能的计算层。得益于 Google 的 PB 级网络能够在这些计算层和存储层之间实现必要的通信,它们可以彼此独立地高效运行。
旧版数据库通常必须共享资源才能执行读取/写入操作和分析操作。这可能会导致资源冲突,并且在将数据写入存储空间或从存储空间读取数据时,可能会降低查询速度。当数据库管理任务(例如分配或撤消权限)需要资源时,共享资源池可能会进一步受到限制。BigQuery 的计算层和存储层分离可让每一层动态分配资源,而不会影响另一层的性能或可用性。
这种分离原则可让 BigQuery 加快创新速度,因为存储和计算改进可以独立部署,而不会造成停机或对系统性能产生负面影响。此外,还必须提供全托管式无服务器数据仓库,以供 BigQuery 工程团队处理更新和维护。这样一来,您无需预配或手动扩缩资源,便可以专注于提供价值,而不是专注于传统的数据库管理任务。
BigQuery 界面包括 Google Cloud 控制台界面和 BigQuery 命令行工具。开发者和数据科学家可以将客户端库与熟悉的编程语言(包括 Python、Java、JavaScript 和 Go)以及 BigQuery 的 REST API 和 RPC API 搭配使用,以转换和管理数据。ODBC 和 JDBC 驱动程序可与现有应用(包括第三方工具和实用程序)进行交互。
作为数据分析师、数据工程师、数据仓库管理员或数据科学家,BigQuery 可帮助您加载、处理和分析数据,从而做出关键业务决策。
BigQuery 使用入门
只需几分钟即可开始探索 BigQuery。利用 BigQuery 的免费用量层级或免费沙盒开始加载和查询数据。
- BigQuery 的沙盒:开始使用 BigQuery 沙盒,无风险且免费。
- Google Cloud 控制台快速入门:熟悉 BigQuery 控制台的强大功能。
- 公共数据集:通过浏览公共数据集计划中的大型真实数据,体验 BigQuery 的性能。
探索 BigQuery
BigQuery 的无服务器基础架构让您可以专注于数据而不是资源管理。BigQuery 结合了云端数据仓库和强大的分析工具。
BigQuery 存储
BigQuery 使用针对分析查询进行了优化的列式存储格式来存储数据。BigQuery 在表、行和列中显示数据,并完全支持数据库事务语义 (ACID)。BigQuery 存储会自动跨多个位置进行复制,以提供高可用性。
- 了解数据仓库和数据集市中 BigQuery 资源的常见组织模式。
- 了解数据集,这是 BigQuery 的表和视图的顶层容器。
- 使用以下方式将数据加载到 BigQuery 中:
- BigQuery Data Transfer Service 可自动注入数据。
如需了解详情,请参阅 BigQuery 存储概览。
BigQuery 分析
描述性分析和规范性分析使用包括商业智能、临时性分析、地理空间分析和机器学习。您可以使用外部表或联合查询(包括存储在 Google 云端硬盘中的 Cloud Storage、Bigtable、Spanner 或 Google 表格)查询存储在 BigQuery 中的数据,或查询数据位于何处。
- ANSI 标准 SQL 查询(SQL:2011 支持),其中包括对联接、嵌套和重复字段、分析和聚合函数、多语句查询以及包含地理空间分析的各种空间函数(地理信息系统)的支持。
- 创建视图以共享您的分析。
- 商业智能工具支持,包括 BI Engine 和 Looker Studio、Looker、Google 表格以及第三方工具(如 Tableau 和 Power BI)。
- BigQuery ML 提供机器学习和预测分析。
- BigQuery Studio 为 Python 笔记本和已保存的查询提供了 Python 笔记本和版本控制等功能。这些功能让您可更轻松地在 BigQuery 中完成数据分析和机器学习 (ML) 工作流。
- 使用外部表和联合查询来查询 BigQuery 外部的数据。
如需了解详情,请参阅 BigQuery 分析概览。
BigQuery 管理
BigQuery 可集中管理数据和计算资源,而 Identity and Access Management (IAM) 可帮助您利用 Google Cloud 中所用的访问模型保护这些资源。Google Cloud 安全最佳实践提供了一种可靠且灵活的方法,该方法包括传统的边界安全机制或更复杂、更精细的深度防御方法。
- 数据安全和治理简介可帮助您了解数据治理,以及可能需要采取哪些控制措施来保护 BigQuery 资源。
- 作业是 BigQuery 代表您执行的操作,用于加载、导出、查询或复制数据。
- 借助预留,您可以在按需价格和基于容量的价格之间切换。
如需了解详情,请参阅 BigQuery 管理简介。
BigQuery 资源
探索 BigQuery 资源:
- 版本说明提供功能、更改和弃用的更新日志。
分析和存储的价格。另请参阅:BigQuery ML、BI Engine 和 Data Transfer Service 价格。
位置定义了创建和存储数据集的位置(区域和多区域位置)。
智能分析参考模式提供了指向常见分析使用场景的示例代码和技术参考指南(包括开发常见分析功能的最佳做法)的链接。
Stack Overflow 托管着一个互动社区,该社区由使用 BigQuery 的开发者和分析师组成。
BigQuery 支持团队提供 BigQuery 方面的帮助。
Google BigQuery: The Definitive Guide: Data Warehousing, Analytics, and Machine Learning at Scale(作者:Valliappa Lakshmanan 和 Jordan Tigani)介绍了 BigQuery 的工作原理并提供了关于如何使用该服务的端到端演示。
API、工具和参考文档
适用于 BigQuery 开发者和分析师的参考资料:
- 如需详细了解如何使用 GoogleSQL,请参阅 SQL 查询语法。
- BigQuery API 和客户端库概述了 BigQuery 的功能及其用法。
- BigQuery 代码示例为 C#、Go、Java、Node.js、Python、Ruby 客户端库提供了数百个代码段。也可以查看示例浏览器。
- DML、DDL 和用户定义的函数 (UDF) 语法允许您管理和转换 BigQuery 数据。
- bq 命令行工具参考文档记录了
bq
CLI 的语法、命令、标志和参数。 - ODBC/JDBC 集成将 BigQuery 连接到您现有的工具和基础架构。
BigQuery 角色和资源
BigQuery 可满足具有以下角色和职责的数据专业人员的需求。
数据分析师
帮助您执行以下操作的任务指导:
- 使用 SQL 查询语法通过交互式查询或批量查询来查询 BigQuery 数据
- 引用 SQL 表达式、函数和运算符来查询数据
使用工具分析和直观呈现 BigQuery 数据,包括 Looker、Looker 数据洞察和 Google 表格。
使用地理空间分析来通过 BigQuery 的地理信息系统分析和直观呈现地理空间数据
使用以下各项优化查询性能:
如需直接在 Google Cloud 控制台中浏览 BigQuery 的数据分析功能,请点击浏览。
数据管理员
帮助您执行以下操作的任务指导:
- 使用预留管理费用,以平衡按需价格和基于容量的价格。
- 了解数据安全和治理,以按数据集、表、列、行或视图保护数据。
- 使用表快照备份数据,以保留在特定时间点表的内容。
- 查看 BigQuery INFORMATION_SCHEMA,以了解数据集、作业、访问权限控制、预留、表等等的元数据。
- 使用作业让 BigQuery 代表您加载、导出、查询或复制数据。
- 监控日志和资源以了解 BigQuery 和工作负载。
如需了解详情,请参阅 BigQuery 管理简介。
如需直接在 Google Cloud 控制台中浏览 BigQuery 数据管理功能,请点击浏览。
数据科学家
帮助您使用 BigQuery ML 的机器学习来执行以下操作的任务指导:
- 了解机器学习模型的端到端用户体验历程
- 针对 BigQuery ML 管理访问权限控制
- 创建并训练 BigQuery ML 模型,包括:
- 线性回归预测
- 二元逻辑和多类别逻辑回归分类
- K-means 聚类(用于数据细分)
- 使用 Arima+ 模型进行时序预测
数据开发者
帮助您执行以下操作的任务指导:
- 使用以下方式将数据加载到 BigQuery 中:
使用代码示例库,包括:
Google Cloud 示例浏览器(适用于 BigQuery)
BigQuery 视频教程
以下系列视频教程将帮助您开始使用 BigQuery:
标题 |
说明 |
---|---|
如何开始使用 BigQuery (17:18) | 简要介绍 BigQuery 及其使用方法。具体包括:ETL 流水线、价格和优化、BigQuery ML 和 BI Engine,最后是 Google Cloud 控制台中的 BigQuery 的演示。 |
什么是 BigQuery?(4:39) | 简要介绍 BigQuery 如何注入和存储大量数据,以帮助分析师和开发者处理数据 |
使用 BigQuery 沙盒 (3:05) | 如何设置 BigQuery 沙盒,让您无需提供信用卡即可运行查询 |
提出问题和运行查询 (5:11) | 如何在 BigQuery 界面中编写和运行 SQL 查询 - 以及选择胜出的参赛者运动衫号码 |
将数据加载到 BigQuery 中 (5:31) | 如何实时注入和分析数据,或者仅对数据进行一次性批量分析 - 包括猫与狗 |
直观呈现查询结果 (5:38) | 数据可视化如何使复杂数据集更易于理解和吸收 |
使用 IAM 管理访问权限 (5:23) | 如何通过 IAM 权限和访问权限控制允许其他用户在 BigQuery 中查询您的数据集 |
保存和共享查询 (6:17) | 如何在 BigQuery 中轻松无忧地保存和共享查询 |
使用授权视图保护敏感数据 (7:12) | 如何通过设置自定义访问权限控制轻松与不同的用户共享数据集 |
使用 BigQuery 查询外部数据 (5:49) | 如何在 BigQuery 中设置外部数据源,以及如何查询 Cloud Storage、Cloud SQL、Google 云端硬盘等等中的数据 |
什么是用户定义的函数?(4:59) | 如何在 BigQuery 中创建用户定义的函数 (UDF) 以分析数据集 |
后续步骤
- 如需大致了解 BigQuery 存储空间,请参阅 BigQuery 存储空间概览。
- 如需大致了解 BigQuery 查询,请参阅 BigQuery 分析概览。
- 如需大致了解 BigQuery 管理,请参阅 BigQuery 管理简介。
- 如需大致了解 BigQuery 安全性,请参阅数据安全和治理概览。