Como gerenciar TPUs

O treinamento de um modelo de machine learning (ML) requer uma VM do Compute Engine e recursos do Cloud TPU. Nesta página, você verá como gerenciar esses recursos usando:

Pré-requisitos

Para executar esses procedimentos, você precisa ter um projeto do Google Cloud Platform (GCP) configurado. Se você não tiver um projeto, consulte Como criar e gerenciar projetos para configurar um.

Se você estiver usando o comando gcloud, use o Google Cloud Shell ou instale o comando gcloud localmente. Com o Google Cloud Shell, é possível interagir com Cloud TPUs sem precisar instalar softwares. O Google Cloud Shell pode se desconectar após um período de inatividade. Portanto, se você estiver executando comandos de longa duração, recomendamos instalar gcloud na sua máquina local. O comando gcloud faz parte do SDK do Google Cloud.

  1. Se você estiver usando um prompt de comando local, instale o SDK do Google Cloud.
  2. Configure gcloud para usar seu projeto.

    gcloud config set project project-name
    
  3. Configure gcloud para usar a zona em que você planeja criar recursos do Cloud TPU. Por exemplo, us-central1-b.

    $ gcloud config set compute/zone zone
    

Para mais informações sobre o comando gcloud, consulte a referência da gcloud.

Como criar um Cloud TPU

Ao criar um Cloud TPU, você cria recursos do Compute Engine e da VM do Compute Engine.

Como criar um Cloud TPU com gcloud

$ gcloud compute tpus execution-groups create --name=tpu-name \
  --zone=zone \
  --tf-version=2.4.1 \
  --machine-type=n1-standard-1 \
  --accelerator-type=v3-8

Descrições de sinalizações de comando

zone
A zona em que você planeja criar a Cloud TPU.
tf-version
A versão do Tensorflow instala o comando gcloud na sua VM.
machine-type
O tipo de máquina da VM do Compute Engine a ser criada.
accelerator-type
O tipo do Cloud TPU a ser criado.

Como criar um Cloud TPU no Console do Google Cloud

  1. Navegue até o Console do Google Cloud.
  2. No menu de navegação, selecione Compute Engine > TPUs.
  3. Clique em CRIAR NNODE DE TPU.
  4. Na caixa Nome, digite um nome de instância de TPU.
  5. Na caixa Zona, selecione a zona em que a TPU será criada.
  6. Em Tipo de TPU, selecione o tipo de TPU a ser criado.
  7. Em Versão do software de TPU, selecione a versão do software. Ao criar uma VM do Cloud TPU, a versão do software da TPU especifica a versão do ambiente de execução da TPU a ser instalada. Ao criar um nó do Cloud TPU, a versão do software do TPU permite escolher o framework de ML instalado na VM do nó. Nenhuma outra configuração é necessária. Para mais informações, consulte Modelos compatíveis.
  8. Clique em Criar para criar os recursos.

Como se conectar a uma VM do Cloud TPU

$ gcloud compute ssh tpu-name\
  --zone=zone

Como listar recursos do Cloud TPU

É possível listar todas as Cloud TPUs em uma zona especificada.

Como listar recursos do Cloud TPU usando gcloud

$ gcloud compute tpus execution-groups list --zone=zone

Este comando lista os recursos do Cloud TPU na zona especificada. Se nenhum recurso estiver configurado ainda, a saída mostrará apenas traços para a VM e a TPU. Se um recurso estiver ativo e o outro não, uma mensagem informará que o status não é íntegro. Você precisa iniciar ou reiniciar qualquer recurso que não esteja em execução.

Como listar recursos do Cloud TPU usando o Console do GCP

  1. Navegue até o Console do Google Cloud.

  2. No menu de navegação, selecione Compute Engine > TPUs. O console exibe a página de TPUs.

Como recuperar informações sobre o Cloud TPU

É possível recuperar informações sobre um Cloud TPU especificado.

Recuperar informações sobre um Cloud TPU usando gcloud.

$ gcloud compute tpus execution-groups describe tpu-name \
  --zone=zone

Recuperar informações sobre um Cloud TPU usando o Console do Google Cloud

  1. Navegue até o Console do Google Cloud.
  2. No menu de navegação, selecione Compute Engine > TPUs. O console exibe a página de TPUs.
  3. Clique no nome do Cloud TPU. A página de detalhes do Cloud TPU será exibida.

Como interromper seus recursos do Cloud TPU

É possível interromper uma Cloud TPU para interromper as cobranças sem perder a configuração e o software da VM.

Como interromper um Cloud TPU com gcloud

$ gcloud alpha compute tpus stop tpu-name \
  --zone=zone

Como interromper uma Cloud TPU no Console do GCP

  1. Navegue até o Console do Google Cloud.

  2. No menu de navegação, selecione Compute Engine > TPUs. O console exibe a página de TPUs.

  3. Marque a caixa de seleção ao lado da Cloud TPU e clique em Parar.

Como iniciar os recursos do Cloud TPU

É possível iniciar um Cloud TPU quando ele estiver parado.

Como iniciar um Cloud TPU com gcloud

$ gcloud alpha compute tpus start tpu-name --zone=zone

Como iniciar um Cloud TPU no Console do GCP

  1. Navegue até o Console do Google Cloud.

  2. No menu de navegação, selecione Compute Engine > TPUs. O console exibe a página de TPUs.

  3. Marque a caixa de seleção ao lado da Cloud TPU e clique em Iniciar.

Como excluir os recursos do Cloud TPU e da VM do Compute Engine

É possível excluir o Cloud TPU quando terminar de usá-lo.

Como excluir um Cloud TPU usando gcloud

$ gcloud compute tpus execution-groups delete tpu-name \
  --zone=zone

Descrições de sinalizações de comando

zone
A zona em que você planeja criar a Cloud TPU.

Como excluir um Cloud TPU usando o Console do GCP

  1. Navegue até o Console do Google Cloud.

  2. No menu de navegação, selecione Compute Engine > TPUs. O console exibe a página de TPUs.

  3. Marque a caixa de seleção ao lado da Cloud TPU e clique em Excluir.