Servicios con acceso a TPU

Tus aplicaciones pueden acceder a nodos TPU desde contenedores, instancias o servicios en Google Cloud. La aplicación requiere una conexión al nodo TPU a través de tu red de VPC.

Los servicios de Google Cloud siguientes son capaces de acceder a nodos de TPU. Selecciona el servicio con las características que mejor se adapten a tus necesidades.

Compute Engine

  • Cloud TPU en Compute Engine es un buen punto de partida para los usuarios nuevos de Cloud TPU y los usuarios con experiencia en aprendizaje automático que desean administrar sus propios servicios de Cloud TPU. Encontrarás la siguiente información:
    • El programa de servicio ctpu que configura tus recursos de VM, TPU y Cloud Storage.
    • Una guía de inicio rápido que te explica cómo entrenar tu primer modelo de aprendizaje automático.
    • Instructivos sobre clasificación de imágenes, detección de objetos y modelos de traducción de idiomas.
    • Herramientas para supervisar el rendimiento y solucionar cuellos de botella durante el procesamiento del modelo de TPU.

Kubernetes Engine

  • Cloud TPU en Google Kubernetes Engine ofrece las siguientes funciones:
    • Configuración y administración sencillas: cuando usas Cloud TPU, necesitas una VM de Compute Engine a fin de ejecutar tu carga de trabajo y un bloque de enrutamiento entre dominios sin clases (CIDR) para Cloud TPU. Google Kubernetes Engine configura y administra la VM y el bloque de CIDR por ti.
    • Costo optimizado: Google Kubernetes Engine escala tus VM de forma automática en función de las cargas de trabajo y el tráfico. Solo pagas por Cloud TPU y la VM cuando ejecutas cargas de trabajo en ellos.
    • Uso flexible: para cambiar tu acelerador de hardware (CPU, GPU o TPU) solo se requiere modificar una línea en las especificaciones de tu pod.
    • Escalabilidad: Google Kubernetes Engine proporciona API (implementación y trabajo) que pueden escalar con facilidad a cientos de pods y nodos de Cloud TPU.
    • Tolerancia a errores: La API de trabajo de Google Kubernetes Engine, junto con el mecanismo de punto de control de TensorFlow, proporcionan la semántica de ejecución completa. Si se producen fallas en una instancia de VM o en un nodo de Cloud TPU, tus trabajos de entrenamiento se vuelven a ejecutar automáticamente desde el último estado del punto de control.

AI Platform

  • Cloud TPU en AI Platform es un buen punto de partida si tienes experiencia en AA y deseas aprovechar las API y servicios administrados de AI Platform. AI Platform administra las etapas de flujo de trabajo del AA siguientes:
    • Entrena un modelo de AA en tus datos:
      • Entrenamiento de un modelo de AA con tus datos
      • Evaluación de la precisión del modelo
      • Ajuste de los hiperparámetros
    • Implementa tu modelo entrenado.
    • Envía solicitudes de predicción a tu modelo:
      • Predicción en línea
      • Predicción por lotes
    • Supervisa las predicciones de forma continua.
    • Administra tus modelos y sus versiones.