BigQuery ML 简介

概览

通过 BigQuery ML,用户可以使用标准 SQL 查询在 BigQuery 中创建和执行机器学习模型。BigQuery ML 可让 SQL 专业人员能够使用现有的 SQL 工具和技能构建模型,从而实现机器学习的普及。使用 BigQuery ML,无需移动数据,加快了开发速度。

BigQuery ML 功能在以下工具中提供:

  • BigQuery 网页界面
  • bq 命令行工具
  • BigQuery REST API
  • 外部工具,如 Jupyter 笔记本或商业智能平台

大型数据集的机器学习需要丰富的编程经验和机器学习框架知识。这些要求将解决方案开发限制在每家公司内的一小部分人员中,而且这些人员中不包括了解数据,但机器学习知识和编程专业知识有限的数据分析师。

BigQuery ML 让数据分析师能够通过现有的 SQL 工具和技能运用机器学习。分析师可以使用 BigQuery ML 在 BigQuery 中构建和评估机器学习模型。分析师无需再将少量数据导出到电子表格或其他应用中,也无需再等待数据科学团队的有限资源。

BigQuery ML 中支持的模型

BigQuery ML 中的模型表示机器学习系统从训练数据中学到的内容。

BigQuery ML 支持以下类型的模型:

  • 用于预测的线性回归;例如,给定日期的商品销售额。标签为实值(不能为 +/- 无穷大或 NaN)。
  • 用于分类的二元逻辑回归;例如,确定客户是否会购买。标签必须只有两个可能的值。
  • 用于分类的多类别逻辑回归。这些模型可用于预测多个可能的值,例如输入是“低值”、“中值”还是“高值”。标签最多可包含 50 个唯一值。在 BigQuery ML 中,多类别逻辑回归训练使用具有交叉熵损失函数多项分类器
  • 用于数据分割的 K-means 聚类(测试版);例如,识别客户细分。K-means 是一种非监督式学习技术,因此模型训练不需要标签,也不需要为训练或评估拆分数据。

在 BigQuery ML 中,可以将模型与多个 BigQuery 数据集中的数据一起用于训练和预测。

BigQuery ML 的优势

与使用云端数据仓库的机器学习相比,BigQuery ML 具有以下优势:

  • BigQuery ML 让数据分析师(主要的数据仓库用户)使用现有的商业智能工具和电子表格来构建和运行模型,从而让人人可使用机器学习。这有助于通过对整个组织的预测分析来做出业务决策。
  • 无需使用 Python 或 Java 编写机器学习解决方案。语言数据分析师明白通过 SQL 即可训练并访问 BigQuery 中的模型。
  • BigQuery ML 无需再从数据仓库中导出数据,提高了模型开发和创新的速度。相反,BigQuery ML 对数据进行机器学习。导出数据并重新格式化:

    • 增加复杂性 - 需要多种工具。
    • 降低速度 - 为基于 Python 的机器学习框架移动和格式化大量数据所需时间比在 BigQuery 中训练模型更长。
    • 需要多步才能从数据仓库导出数据,从而对数据试验的能力有所限制。
    • 可以通过法律限制(例如 HIPAA 指南)加以预防。

支持的区域

与 BigQuery 一样,BigQuery ML 也是一种多区域资源。BigQuery ML 支持的区域与 BigQuery 相同。

数据位置是在创建数据集时指定的,用于存储 BigQuery ML 模型和训练数据。BigQuery ML 会处理数据,并将其暂存到目标数据集所在的位置。

配额

除了特定于 BigQuery ML 的限制以外,使用 BigQuery ML 函数和 CREATE MODEL 语句的查询还会受到 BigQuery 查询作业配额和限制的约束。

如需了解有关 BigQuery ML 配额和限制的更多信息,请参阅配额和限制

价格

BigQuery ML 模型存储在 BigQuery 数据集中,如表和视图。在 BigQuery ML 中创建和使用模型时,您的费用取决于用于训练模型的数据量以及对数据运行的查询。

如需了解 BigQuery ML 价格,请参阅 BigQuery ML 价格。如需了解 BigQuery 存储价格,请参阅存储价格。如需了解 BigQuery ML 查询价格,请参阅查询价格

资源

如需详细了解机器学习和 BigQuery ML,请参阅:

后续步骤

此页内容是否有用?请给出您的反馈和评价:

发送以下问题的反馈:

此网页
BigQuery ML 文档