TPU

En esta página, se presenta Cloud TPU y se muestra dónde encontrar información sobre el uso de Cloud TPU con Google Kubernetes Engine. Las unidades de procesamiento tensorial (TPUs) son los circuitos integrados específicos de aplicaciones (ASIC) desarrolladas por Google que se usan para acelerar las cargas de trabajo TensorFlow de aprendizaje automático.

Descripción general

Usar GKE para administrar tu Cloud TPU te da las siguientes ventajas:

  • Configuración y administración más sencillas: Cuando usas Cloud TPU, necesitas una Compute Engine VM a fin de ejecutar tu carga de trabajo y un bloque de enrutamiento entre dominios sin clases (CIDR) para la Cloud TPU. GKE configura y administra la VM y el bloque CIDR por ti.

  • Costo optimizado: GKE escala tus VM y nodos de Cloud TPU de forma automática según las cargas de trabajo y el tráfico. Solo pagas por Cloud TPU y la VM cuando ejecutas las cargas de trabajos en ellas.

  • Uso flexible: Un cambio en una línea de la especificación del pod es suficiente para solicitar un acelerador de hardware diferente (CPU, GPU o TPU):

    kind: Pod
      spec:
        containers:
        - name: example-container
          resources:
            limits:
              cloud-tpus.google.com/v2: 8
              # See the line above for TPU, or below for CPU / GPU.
              # cpu: 2
              # nvidia.com/gpu: 1
    
  • Escalabilidad: GKE proporciona dos API (Implementación y Trabajo) que pueden escalar con facilidad a cientos de pods y nodos de Cloud TPU.

  • Tolerancia a errores: La API de trabajo de GKE, junto con el mecanismo de punto de control de TensorFlow, proporcionan la semántica de ejecución completa. Tus trabajos de capacitación se volverán a ejecutar automáticamente con la última lectura del estado del punto de control si se producen fallas en las instancias de VM o en los nodos Cloud TPU.

Próximos pasos