TPUs

Nesta página, você conhece o Cloud TPU e descobre onde encontrar informações sobre o uso dele com o Google Kubernetes Engine. As Unidades de Processamento de Tensor (TPUs, na sigla em inglês) são circuitos integrados de aplicação específica (ASICs, na sigla em inglês) desenvolvidos especialmente pelo Google. Elas são usadas para acelerar as cargas de trabalho de aprendizado de máquina do TensorFlow.

Visão geral

Estas são as vantagens de usar o GKE para gerenciar a Cloud TPU:

  • Facilidade de configuração e gerenciamento: para usar a Cloud TPU, é preciso ter uma VM do Compute Engine para executar a carga de trabalho e um bloco de roteamento entre domínios sem classificação (CIDR, na sigla em inglês) para a Cloud TPU. O GKE configura e gerencia a VM e o bloco CIDR para você.

  • Custo otimizado: o GKE escalona as VMs e os nós da Cloud TPU automaticamente com base nas cargas de trabalho e no tráfego. Você pagará pela Cloud TPU e pela VM apenas quando executar cargas de trabalho nelas.

  • Uso flexível: basta alterar uma linha na especificação do pod para solicitar um acelerador de hardware diferente (CPU, GPU ou TPU)

    kind: Pod
      spec:
        containers:
        - name: example-container
          resources:
            limits:
              cloud-tpus.google.com/v2: 8
              # See the line above for TPU, or below for CPU / GPU.
              # cpu: 2
              # nvidia.com/gpu: 1
    
  • Escalonabilidade: as APIs Job e Deployment são fornecidas pelo GKE e podem ser facilmente escalonadas para centenas de pods e nós do Cloud TPU.

  • Tolerância a falhas: a API Job do GKE e o mecanismo de ponto de verificação do TensorFlow fornecem a semântica da execução à conclusão. Em caso de falha nas instâncias de VMs ou nos nós da Cloud TPU, os jobs de treinamento são automaticamente executados de novo com o estado mais recente lido no checkpoint.

A seguir

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Kubernetes Engine