BigQuery ML 简介

概览

BigQuery ML 可让用户使用标准 SQL 查询,在 BigQuery 中创建和执行机器学习模型。BigQuery ML 可让 SQL 从业者使用现有 SQL 工具和技能构建模型,从而让人人都可以使用机器学习。使用 BigQuery ML,无需移动数据,加快了开发速度。

BigQuery ML 目前支持以下几类模型:

  • 线性回归 - 这些模型可用于预测数值。
  • 二元逻辑回归 - 这些模型可用于预测两类中的一类(例如识别电子邮件是否为垃圾邮件)。
  • 多类别逻辑回归分类 - 这些模型可用于预测两个以上的类,例如输入是“低位值”、“中位值”还是“高位值”。

BigQuery ML 功能在以下工具中提供:

  • BigQuery 网页界面
  • bq 命令行工具
  • BigQuery REST API
  • 外部工具,如 Jupyter 笔记本或商业智能平台

大型数据集的机器学习需要丰富的编程经验和机器学习框架知识。这些要求将解决方案开发限制在每家公司内的一小部分人员中,而且这些人员中不包括了解数据,但机器学习知识和编程专业知识有限的数据分析师。

BigQuery ML 让数据分析师能够通过现有的 SQL 工具和技能运用机器学习。分析师可以使用 BigQuery ML 在 BigQuery 中构建和评估机器学习模型。分析师无需再将少量数据导出到电子表格或其他应用程序中,分析师无需再等待数据科学团队的有限资源。

BigQuery ML 的优势

与使用云端数据仓库的机器学习相比,BigQuery ML 具有以下优势:

  • BigQuery ML 让数据分析师(主要的数据仓库用户)使用现有的商业智能工具和电子表格来构建和运行模型,从而让人人可使用机器学习。这有助于通过对整个组织的预测分析来做出业务决策。
  • 无需使用 Python 或 Java 编写机器学习解决方案。语言数据分析师明白通过 SQL 即可训练并访问 BigQuery 中的模型。
  • BigQuery ML 无需再从数据仓库中导出数据,提高了模型开发和创新的速度。相反,BigQuery ML 对数据进行机器学习。导出数据并重新格式化:

    • 增加复杂性 - 需要多种工具。
    • 降低速度 - 为基于 Python 的机器学习框架移动和格式化大量数据所需时间比在 BigQuery 中训练模型更长。
    • 需要多步才能从数据仓库导出数据,从而对数据试验的能力有所限制。
    • 可以通过法律限制(例如 HIPAA 指南)加以预防。

支持的区域

与 BigQuery 一样,BigQuery ML 也是一种多区域资源。BigQuery ML 支持的区域与 BigQuery 相同。

数据位置是在创建数据集时指定的,用于存储 BigQuery ML 模型和训练数据。BigQuery ML 会处理数据并将其暂存到目标数据集所在的位置。

配额

除了 BigQuery ML 特定限制之外,使用 BigQuery ML 函数和 CREATE MODEL 语句的查询还受查询作业的配额和限制的约束。

如需详细了解所有配额和限制,请参阅配额和限制

价格

BigQuery ML 模型存储在 BigQuery 数据集中,如表和视图。在 BigQuery ML 中创建和使用模型时,您的费用取决于用于训练模型的数据量以及对数据运行的查询。

如需了解 BigQuery ML 价格,请参阅 BigQuery ML 价格。如需了解存储价格,请参阅存储价格。如需了解查询价格,请参阅查询价格

资源

如需详细了解机器学习和 BigQuery ML,请参阅:

后续步骤

此页内容是否有用?请给出您的反馈和评价:

发送以下问题的反馈:

此网页
需要帮助?请访问我们的支持页面