TPUs

Nesta página, apresentamos a Cloud TPU e mostramos onde encontrar informações sobre o uso dela com o Google Kubernetes Engine. As Unidades de Processamento de Tensor (TPUs, na sigla em inglês) são circuitos integrados de aplicação específica (ASICs, na sigla em inglês) desenvolvidos especialmente pelo Google. Elas são usadas para acelerar as cargas de trabalho de aprendizado de máquina do TensorFlow.

Visão geral

Estas são as vantagens de usar o GKE para gerenciar a Cloud TPU:

  • Facilidade de configuração e gerenciamento: para usar a Cloud TPU, é preciso ter uma VM do Compute Engine para executar a carga de trabalho e um bloco de roteamento entre domínios sem classificação (CIDR, na sigla em inglês) para a Cloud TPU. O GKE configura e gerencia a VM e o bloco CIDR para você.

  • Custo otimizado: o GKE dimensiona as VMs e os nós da Cloud TPU automaticamente com base nas cargas de trabalho e no tráfego. Você pagará pelo Cloud TPU e pela VM apenas quando executar cargas de trabalho neles.

  • Uso flexível: basta alterar uma linha na especificação do pod para solicitar um acelerador de hardware diferente (CPU, GPU ou TPU):

    kind: Pod
    spec:
      containers:

    • name: example-container resources: limits: cloud-tpus.google.com/v2: 8 # See the line above for TPU, or below for CPU / GPU. # cpu: 2 # nvidia.com/gpu: 1
  • Escalonabilidade: as APIs Job e Deployment são fornecidas pelo GKE e podem ser facilmente escalonadas para centenas de pods e nós do Cloud TPU.

  • Tolerância a falhas: a semântica é fornecida pela API Job do GKE e pelo mecanismo de checkpoint do TensorFlow, desde a execução até a conclusão. Em caso de falha nas instâncias de VMs ou nos nós da Cloud TPU, os jobs de treinamento são automaticamente executados novamente com o estado mais recente lido no checkpoint.

  • A seguir

    Esta página foi útil? Conte sua opinião sobre:

    Enviar comentários sobre…

    Documentação do Kubernetes Engine