您的应用可以从 Google Cloud 上的容器、实例或服务访问 TPU 节点。该应用需要通过您的 VPC 网络连接到 TPU 节点。
以下 Google Cloud 服务都能访问 TPU 节点。 请选择特征最符合您的要求的服务。
Compute Engine
- 对于 Cloud TPU 新用户以及希望管理自己的 Cloud TPU 服务且富有经验的机器学习用户来说,Compute Engine 上的 Cloud TPU 是很好的起点。它包括以下内容:
- 用于设置虚拟机、TPU 和 Cloud Storage 资源的
ctpu
实用程序。 - 用于指导完成首次机器学习模型训练的快速入门。
- 有关图片分类、对象检测和语言翻译模型的教程。
- 用于在 TPU 模型处理过程中监控性能和解决瓶颈问题的工具。
- 用于设置虚拟机、TPU 和 Cloud Storage 资源的
Kubernetes Engine
- Google Kubernetes Engine 上的 Cloud TPU 具有下列优势:
- 设置和管理轻松:使用 Cloud TPU 时,您需要一个 Compute Engine 虚拟机来运行工作负载,还需要一个无类别域间路由 (CIDR) 块用于 Cloud TPU。Google Kubernetes Engine 会为您设置和管理虚拟机和 CIDR 块。
- 费用更优:Google Kubernetes Engine 根据工作负载和流量自动扩缩您的虚拟机。只有在 Cloud TPU 和虚拟机上运行工作负载时,您才需要支付费用。
- 使用灵活:如需更改硬件加速器(CPU、GPU 或 TPU),只需在 Pod 规范中更改一行即可。
- 可伸缩性:Google Kubernetes Engine 提供的 API(Job API 和 Deployment API)可助您轻松扩容到数百个 Pod 和 Cloud TPU 节点。
- 容错能力:Google Kubernetes Engine Job API 连同 TensorFlow 检查点机制共同提供了“运行到完成”的语义。如果虚拟机实例或 Cloud TPU 节点发生故障,您的训练作业会自动从检查点的最新状态重新运行。
AI Platform
- 如果您有一定的机器学习经验,并且希望使用 AI Platform 托管的服务和 API,那么 AI Platform 上的 Cloud TPU 是一个很好的起点。AI Platform 会管理以下机器学习工作流阶段:
- 使用您的数据训练机器学习模型:
- 使用您的数据训练机器学习模型
- 评估模型准确率
- 调整超参数
- 部署经过训练的模型。
- 向模型发送预测请求:
- 在线预测
- 批量预测
- 持续监控预测。
- 管理模型和模型版本。
- 使用您的数据训练机器学习模型: