Vertex AI 是一个机器学习 (ML) 平台,可让您训练和部署机器学习模型和 AI 应用,以及自定义大型语言模型 (LLM),以在 AI 驱动的应用中使用。Vertex AI 结合了数据工程、数据科学和机器学习工程工作流,使您的团队能够使用通用工具集进行协作,并利用 Google Cloud 的优势扩缩您的应用。
Vertex AI 提供了几种模型训练和部署的选项:
借助 AutoML,您可以训练表格、图片、文本或视频数据,不需要编写代码,也不需要准备数据分块。
自定义训练使您能够完全控制训练过程,包括使用您偏好的机器学习框架、编写自己的训练代码以及选择超参数调节选项。
借助 Model Garden,您可以发现、测试、自定义和部署 Vertex AI 及部分开源 (OSS) 模型和资源。
借助生成式 AI,您可以使用 Google 的多种模态(文本、代码、图片、语音)的大型生成式 AI 模型。您可以调整 Google 的 LLM 来满足您的需求,然后部署它们以在 AI 驱动的应用中使用。
部署模型后,可在整个机器学习生命周期中使用 Vertex AI 的端到端 MLOps 工具自动执行和扩缩项目。这些 MLOps 工具在全代管式基础架构上运行,您可以根据性能和预算需求进行自定义。
您可以使用 Python 版 Vertex AI SDK 在 Vertex AI Workbench(一个基于 Jupyter 笔记本的开发环境)中运行整个机器学习工作流。您可以与团队合作,在 Colab Enterprise(与 Vertex AI 集成的 Colaboratory 版本)中开发模型。其他可用界面包括 Google Cloud 控制台、gcloud 命令行工具、客户端库和 Terraform(有限支持)。
Vertex AI 和机器学习 (ML) 工作流
本部分简要介绍了机器学习工作流,以及如何使用 Vertex AI 来构建和部署模型。
数据准备:提取并清理数据集后,执行探索性数据分析 (EDA) 以了解机器学习模型预期的数据架构和特征。将数据转换和特征工程应用于模型,并将数据拆分为训练集、验证集和测试集。
使用 Vertex AI Workbench 笔记本探索和直观呈现数据。Vertex AI Workbench 与 Cloud Storage 和 BigQuery 集成,可帮助您更快地访问和处理数据。
对于大型数据集,请使用 Vertex AI Workbench 笔记本中的 Dataproc Serverless Spark 运行 Spark 工作负载,而无需管理自己的 Dataproc 集群。
模型训练:选择训练模型的训练方法并调节它以提高性能。
如需在不编写代码的情况下训练模型,请参阅 AutoML 概览。AutoML 支持表格、图片、文本和视频数据。
如需编写您自己的训练代码并使用偏好的机器学习框架训练自定义模型,请参阅自定义训练概览。
使用自定义调节作业来优化自定义训练的模型的超参数。
Vertex AI Vizier 可在复杂的机器学习 (ML) 模型中调节超参数。
借助 Vertex AI Experiments,您可以使用不同的机器学习技术训练模型并比较结果。
在 Vertex AI Model Registry 中注册经过训练的模型,以进行版本控制并交付给生产环境。Vertex AI Model Registry 与验证和部署功能(例如模型评估和端点)集成。
模型评估和迭代:评估经过训练的模型,根据评估指标调整数据,然后在模型上迭代。
- 使用精确率和召回率等模型评估指标来评估和比较模型的性能。通过 Vertex AI Model Registry 创建评估,或将评估包括在 Vertex AI Pipelines 工作流中。
模型应用:将模型部署到生产环境并获取预测。
获取不需要部署到端点的异步批量预测。
与基于开源的预构建 TensorFlow Serving 容器相比,优化的 TensorFlow 运行时让您能以更低的费用和更低的延迟提供 TensorFlow 模型。
对于使用表格模型的在线应用情况,请使用 Vertex AI 特征存储区从中央代码库提供特征并监控特征运行状况。
Vertex Explainable AI帮助您了解每个特征对模型预测有何影响(特征归因),并从训练数据集中查找带有错误标签的数据(基于示例的说明)。
部署使用 BigQuery ML 训练的模型并获得在线预测。
模型监控:监控已部署模型的性能。使用传入的预测数据来重新训练模型以提高性能。
- Vertex AI 模型监控会监控模型是否存在训练-应用偏差和预测偏移,并在传入的预测数据偏离训练基准太远时向您发送提醒。