利用 BigQuery ML,您可以使用标准 SQL 查询在 BigQuery 中创建和执行机器学习模型。BigQuery ML 让 SQL 专业人员能够使用现有的 SQL 工具和技能构建模型,从而实现机器学习的普及。使用 BigQuery ML,无需移动数据,加快了开发速度。
BigQuery ML 功能在以下工具中提供:
- Google Cloud 控制台
bq
命令行工具- BigQuery REST API
- 外部工具,如 Jupyter 笔记本或商业智能平台
大型数据集的机器学习需要丰富的编程经验和机器学习框架知识。这些要求将解决方案开发限制在每家公司内的一小部分人员中,而且这些人员中不包括了解数据,但机器学习知识和编程专业知识有限的数据分析师。
BigQuery ML 让数据分析师能够通过现有的 SQL 工具和技能运用机器学习。分析师可以使用 BigQuery ML 在 BigQuery 中构建和评估机器学习模型。分析师无需要将少量数据导出到电子表格或其他应用中,也无需等待数据科学团队的有限资源。
BigQuery ML 中支持的模型
BigQuery ML 中的模型表示机器学习系统从训练数据中学到的内容。
BigQuery ML 支持以下类型的模型:
- 用于预测的线性回归;例如,给定日期的商品销售额。标签为实值(不能为 +/- 无穷大或 NaN)。
- 用于分类的二元逻辑回归;例如,确定客户是否会购买。标签必须只有两个可能的值。
- 用于分类的多类别逻辑回归。这些模型可用于预测多个可能的值,例如输入是“低值”、“中值”还是“高值”。标签最多可包含 50 个唯一值。在 BigQuery ML 中,多类别逻辑回归训练使用具有交叉熵损失函数的多项分类器。
- K-means 聚类用于数据分段;例如,标识客户细分。K-means 是一种非监督式学习技术,因此模型训练不需要标签,也不需要为训练或评估拆分数据。
- 用于创建产品推荐系统的矩阵分解。您可以使用历史客户行为、交易和产品评分创建产品推荐,然后使用这些推荐来打造个性化的客户体验。
- 用于执行时序预测的时序。您可以使用此特征创建数百万个时序模型并将其用于预测。该模型会自动处理异常情况、季节性情况和节假日情况。
- 用于创建基于 XGBoost 的分类和回归模型的提升树。
- 深度神经网络 (DNN),用于为分类和回归模型创建基于 TensorFlow 的深度神经网络。
- Vertex AI AutoML Tables,可通过简单的流程和界面使用表格数据执行机器学习。
- TensorFlow 模型导入。该特征让您可以根据之前训练的 TensorFlow 模型来创建 BigQuery ML 模型,然后在 BigQuery ML 中执行预测。
- Autoencoder,用于创建支持稀疏数据表示法的基于 Tensorflow 的 BigQuery 机器学习模型。这些模型可在 BigQuery 机器学习中用于诸如以下任务:非监督式异常值检测和非线性维度缩减。
在 BigQuery ML 中,您可以将模型与多个 BigQuery 数据集中的数据一起用于训练和预测。
模型选择指南
BigQuery ML 的优势
与使用云端数据仓库的机器学习相比,BigQuery ML 具有以下优势:
- BigQuery ML 让数据分析师(主要的数据仓库用户)使用现有的商业智能工具和电子表格来构建和运行模型,从而让人人可使用机器学习。预测分析可指导整个组织的业务决策。
无需使用 Python 或 Java 编写机器学习解决方案。数据分析师可以使用他们熟悉的 SQL 语言在 BigQuery 中训练和访问模型。
BigQuery ML 无需再从数据仓库中导出数据,提高了模型开发和创新的速度。相反,BigQuery ML 对数据进行机器学习。与导出数据并重新设置数据格式相比,BigQuery ML 具有以下优势:
- 需要的工具较少,降低了复杂性
- 加快投入生产的速度,因为在 BigQuery 中训练模型不需要为基于 Python 的机器学习框架移动大量数据并设置数据格式。
BigQuery ML 和 Vertex AI
BigQuery ML 与 Google Cloud 的端到端 AI/机器学习平台 Vertex AI 集成。将 BigQuery ML 模型注册到 Vertex AI Model Registry 后,您可以将这些模型部署到端点以进行在线预测。
- 如需详细了解如何将 BigQuery ML 模型与 Vertex AI 搭配使用,请参阅使用 Vertex AI 管理 BigQuery ML 模型
- 如果您不熟悉 Vertex AI,并且想要详细了解它如何与 BigQuery ML 集成,请参阅面向 BigQuery 用户的 Vertex AI。
支持的区域
BigQuery ML 支持的区域与 BigQuery 相同。如需查看支持的地区和多地区的完整列表,请参阅位置页面。
价格
BigQuery ML 模型存储在 BigQuery 数据集中,如表和视图。如需了解 BigQuery ML 价格,请参阅 BigQuery ML 价格。
如需了解 BigQuery 存储价格,请参阅存储价格。如需了解 BigQuery ML 查询价格,请参阅查询价格。
配额
除了特定于 BigQuery ML 的限制以外,使用 BigQuery ML 函数和 CREATE MODEL
语句的查询还会受到 BigQuery 查询作业配额和限制的约束。
如需详细了解所有 BigQuery ML 配额和限制,请参阅配额和限制。
后续步骤
- 如需开始使用 BigQuery ML,请参阅通过 Google Cloud 控制台开始使用 BigQuery ML。
- 如需详细了解机器学习和 BigQuery ML,请参阅以下资源:
- Coursera 课程:借助 Google Cloud 将机器学习应用于您的数据
- 数据和机器学习培训课程
- 机器学习速成课程
- 机器学习术语表
- 如需了解如何使用 Vertex AI Model Registry 进行 MLOps,请参阅使用 Vertex AI 进行 MLOps。