Vertex AI 简介

Vertex AI 是一个机器学习 (ML) 平台，可让您训练和部署机器学习模型和 AI 应用，以及自定义大型语言模型 (LLM)，以在 AI 驱动的应用中使用。Vertex AI 结合了数据工程、数据科学和机器学习工程工作流，使您的团队能够使用统一的工具集进行协作，并利用 Google Cloud的优势扩展您的应用。

Vertex AI 提供了多种模型训练和部署选项：

借助 AutoML，您可以训练表格或图片数据，而无需编写代码或准备数据拆分。这些模型可以部署以进行在线推理，也可以直接查询以进行批量推理。
自定义训练使您能够完全控制训练过程，包括使用您偏好的机器学习框架、编写自己的训练代码以及选择超参数调节选项。您可以将自定义训练的模型导入 Model Registry，并将其部署到端点，以便使用预构建或自定义容器进行在线推理。或者，您也可以直接查询该模型以进行批量推理。
借助 Model Garden，您可以发现、测试、自定义和部署 Vertex AI 及部分开源模型和资源。
借助生成式 AI，您可以使用 Google 的多种模态（文本、代码、图片、语音）的大型生成式 AI 模型。您可以根据需要调优 Google 的 LLM，然后将其部署到您的 AI 赋能应用中。

部署模型后，可在整个机器学习生命周期中使用 Vertex AI 的端到端 MLOps 工具自动执行和扩缩项目。这些 MLOps 工具在全代管式基础架构上运行，您可以根据性能和预算需求进行自定义。

您可以使用 Vertex AI SDK for Python 在 Vertex AI Workbench（一个基于 Jupyter 笔记本的开发环境）中运行整个机器学习工作流。您可以在 Colab Enterprise（与 Vertex AI 集成的 Colaboratory 版本）中与团队协作开发模型。其他可用界面包括 Google Cloud 控制台、Google Cloud CLI 命令行工具、客户端库和 Terraform（有限支持）。

Vertex AI 和机器学习 (ML) 工作流

本部分简要介绍了机器学习工作流，以及如何使用 Vertex AI 来构建和部署模型。

机器学习工作流图

数据准备：提取并清理数据集后，执行探索性数据分析 (EDA) 以了解机器学习模型预期的数据架构和特征。将数据转换和特征工程应用于模型，并将数据拆分为训练集、验证集和测试集。
- 使用 Vertex AI Workbench 笔记本探索和直观呈现数据。Vertex AI Workbench 与 Cloud Storage 和 BigQuery 集成，可帮助您更快地访问和处理数据。
- 对于大型数据集，请使用 Vertex AI Workbench 笔记本中的 Dataproc Serverless Spark 运行 Spark 工作负载，而无需管理自己的 Dataproc 集群。
模型训练：选择训练模型的训练方法并调节它以提高性能。
- 如需在不编写代码的情况下训练模型，请参阅 AutoML 概览。AutoML 支持表格数据或图片数据。
- 如需编写您自己的训练代码并使用偏好的机器学习框架训练自定义模型，请参阅自定义训练概览。
- 使用自定义调节作业来优化自定义训练的模型的超参数。
- Vertex AI Vizier 可在复杂的机器学习 (ML) 模型中调节超参数。
- 借助 Vertex AI Experiments，您可以使用不同的机器学习技术训练模型并比较结果。
- 在 Vertex AI Model Registry 中注册经过训练的模型，以进行版本控制并交付给生产环境。Vertex AI Model Registry 与验证和部署功能（例如模型评估和端点）集成。
模型评估和迭代：评估经过训练的模型，根据评估指标调整数据，然后在模型上迭代。
- 使用精确率和召回率等模型评估指标来评估和比较模型的性能。通过 Vertex AI Model Registry 创建评估，或将评估包括在 Vertex AI Pipelines 工作流中。
模型传送：将模型部署到生产环境并获取在线推理结果，或直接查询模型以获取批量推理结果。
- 使用预构建或自定义容器部署自定义训练模型，以获取实时在线推理结果（有时也称为 HTTP 推理）。
- 获取异步批量推理结果；此操作无需部署到端点。
- 与基于开源的预构建 TensorFlow Serving 容器相比，优化的 TensorFlow 运行时让您能以更低的费用和更低的延迟提供 TensorFlow 模型。
- 对于使用表格模型的在线应用情况，请使用 Vertex AI 特征存储区从中央代码库提供特征并监控特征运行状况。
- Vertex Explainable AI 可帮助您了解每个特征对模型推理结果的贡献（特征归因），并从训练数据集中找出标有错误标签的数据（基于示例的解释）。
- 部署使用 BigQuery ML 训练的模型并获得在线推理。
模型监控：监控已部署模型的性能。使用传入的推理数据来重新训练模型以提高性能。
- Vertex AI Model Monitoring 会监控模型是否存在训练-应用偏差和推理偏移，并在传入的推理数据偏离训练基准太远时向您发送提醒。

后续步骤

了解 Vertex AI 的 MLOps 功能。
了解可用于与 Vertex AI 交互的接口。