可访问 TPU 的服务

您的应用可以通过 Google Cloud Platform 上的容器、实例或服务访问 TPU 节点。该应用需要通过您的 VPC 网络连接到 TPU 节点。

以下 Google Cloud Platform 服务都能访问 TPU 节点。请选择特征最符合您的要求的服务。

Compute Engine

  • 对于 Cloud TPU 新用户以及希望管理自己的 Cloud TPU 服务且富有经验的机器学习用户来说,Compute Engine 上的 Cloud TPU 是很好的起点。它包括以下内容:
    • 用于设置虚拟机、TPU 和 Cloud Storage 资源的 ctpu 实用程序。
    • 用于指导完成首次机器学习模型训练的快速入门。
    • 有关图片分类、对象检测和语言翻译模型的教程。
    • 用于在 TPU 模型处理过程中监控性能和解决瓶颈问题的工具。

Kubernetes Engine

  • Google Kubernetes Engine 上的 Cloud TPU 具有以下优势:
    • 设置和管理轻松:使用 Cloud TPU 时,您需要一个 Compute Engine 虚拟机来运行工作负载,还需要一个用于 Cloud TPU 的无类别域间路由 (CIDR) 块。Google Kubernetes Engine 可为您设置并管理虚拟机和 CIDR 块。
    • 优化费用:Google Kubernetes Engine 根据工作负载和流量自动扩缩您的虚拟机。只有在 Cloud TPU 和虚拟机上运行工作负载时,您才需要支付费用。
    • 使用灵活:如需更改硬件加速器(CPU、GPU 或 TPU),只需在 Pod 规范中更改一行即可。
    • 可伸缩性:Google Kubernetes Engine 提供的 API(Job API 和 Deployment API)可助您轻松扩容到数百个 Pod 和 Cloud TPU 节点。
    • 容错能力:Google Kubernetes Engine Job API 连同 TensorFlow 检查点机制共同提供了“运行到完成”的语义。如果虚拟机实例或 Cloud TPU 节点发生故障,您的训练作业会自动从检查点的最新状态重新运行。

ML Engine

  • 如果您有一定的机器学习经验,希望利用 AI Platform 托管的服务和 API,那么 AI Platform 上的 Cloud TPU是一个很好的起点。AI Platform 会管理以下机器学习工作流阶段:
    • 使用您的数据训练机器学习模型:
      • 使用您的数据训练机器学习模型
      • 评估模型准确率
      • 调整超参数
    • 部署经过训练的模型。
    • 向模型发送预测请求:
      • 在线预测
      • 批量预测
    • 持续监控预测。
    • 管理模型和模型版本。
此页内容是否有用?请给出您的反馈和评价:

发送以下问题的反馈:

此网页
Cloud TPU