Seus aplicativos podem acessar nós de TPU de contêineres, instâncias ou serviços no Google Cloud. O aplicativo requer uma conexão ao nó de TPU por meio da rede VPC.
Os seguintes serviços do Google Cloud podem acessar nós de TPU. Selecione o serviço que tenha as características que melhor atendam às suas necessidades.
Compute Engine
- O Cloud TPU no Compute Engine é um ótimo ponto de partida para usuários novos no Cloud TPU e experientes em machine learning que queiram gerenciar os próprios serviços no Cloud TPU. Ele inclui:
- O SDK
gcloud
que configura seus recursos de VM, TPU e Cloud Storage. - um guia de início rápido para treinamento do seu primeiro modelo de machine learning;
- tutoriais para classificação de imagens, detecção de objetos e modelos de tradução de idiomas;
- ferramentas para monitorar o desempenho e resolver os gargalos no processamento do modelo de TPU.
- O SDK
Kubernetes Engine
- O Cloud TPU no Google Kubernetes Engine oferece:
- facilidade de configuração e gerenciamento: para usar o Cloud TPU, é preciso ter uma VM do Compute Engine para executar a carga de trabalho e um bloco de roteamento entre domínios sem classificação (CIDR, na sigla em inglês) para o Cloud TPU. O Google Kubernetes Engine configura e gerencia a VM e o bloco de CIDR para você;
- custo otimizado: o Google Kubernetes Engine escalona as VMs automaticamente, com base nas cargas de trabalho e no tráfego. Você só pagará pelo Cloud TPU e pela VM quando executar cargas de trabalho neles;
- uso flexível: alterar o acelerador de hardware (CPU, GPU ou TPU) requer uma única alteração de linha nas especificações do pod;
- escalonamento: o Google Kubernetes Engine fornece APIs (Job e Deployment) que podem escalonar facilmente para centenas de pods e nós do Cloud TPU;
- tolerância a falhas: a API Job do Google Kubernetes Engine, junto com o mecanismo de ponto de verificação do TensorFlow, fornece a semântica da execução até a conclusão. Se ocorrerem falhas em uma instância de VM ou nos nós do Cloud TPU, seus jobs de treinamento serão executados novamente de maneira automática, a partir do estado mais recente do checkpoint.
AI Platform
- O Cloud TPU no AI Platform é um bom ponto de partida se você tiver alguma experiência com aprendizado de máquina e quiser aproveitar as APIs e os serviços gerenciados do AI Platform. O AI Platform gerencia os seguintes estágios do fluxo de trabalho de ML:
- Treinar um modelo de ML com seus dados:
- treinar um modelo de ML com seus dados
- avaliar a precisão do modelo
- como ajustar os hiperparâmetros
- Implantar o modelo treinado
- enviar solicitações de predição para seu modelo:
- Previsão on-line
- Predição em lote
- Monitorar as predições de maneira contínua
- Gerenciar modelos e versões de modelo
- Treinar um modelo de ML com seus dados: