Como gerenciar TPUs

O treinamento de um modelo de machine learning (ML) requer uma VM do Compute Engine e recursos do Cloud TPU. Nesta página, você verá como gerenciar esses recursos usando:

Pré-requisitos

Para executar esses procedimentos, você precisa ter um projeto do Google Cloud Platform (GCP) configurado. Se você não tiver um projeto, consulte Como criar e gerenciar projetos para configurar um.

Se você estiver usando o comando gcloud, poderá usar o Google Cloud Shell ou instalar o comando gcloud localmente. O Google Cloud Shell permite interagir com as Cloud TPUs sem precisar instalar nenhum software. O Google Cloud Shell pode se desconectar depois de um período de inatividade. Portanto, se você estiver executando comandos de longa duração, recomendamos instalar o gcloud na sua máquina local. O comando gcloud faz parte do SDK do Google Cloud.

  1. Se você estiver usando um prompt de comando local, instale o SDK do Google Cloud.
  2. Configure gcloud para usar seu projeto.

    gcloud config set project project-name
    
  3. Configure gcloud para usar a zona em que você planeja criar recursos da Cloud TPU. Por exemplo, us-central1-b.

    $ gcloud config set compute/zone zone
    

Para mais informações sobre o comando gcloud, consulte a referência da gcloud.

Como criar uma Cloud TPU

Ao criar uma Cloud TPU, você cria recursos de VM e TPU do Compute Engine.

Como criar uma Cloud TPU com gcloud

$ gcloud compute tpus execution-groups create --name=tpu-name \
  --zone=zone \
  --tf-version=2.4.1 \
  --machine-type=n1-standard-1 \
  --accelerator-type=v3-8

Descrições de sinalizações de comando

zone
A zona em que você planeja criar a Cloud TPU.
tf-version
A versão do TensorFlow que o comando gcloud instala na VM.
machine-type
O tipo de máquina da VM do Compute Engine a ser criada.
accelerator-type
O tipo da Cloud TPU a ser criada.

Como criar um Cloud TPU no Console do Google Cloud

  1. Navegue até o Console do Google Cloud.
  2. No menu de navegação, selecione Compute Engine > TPUs.
  3. Clique em CRIAR N da TPU.
  4. Na caixa Nome, digite um nome de instância de TPU.
  5. Na caixa Zona, selecione a zona em que a TPU será criada.
  6. Em Tipo de TPU, selecione o tipo de TPU que você quer criar.
  7. Em Versão de software da TPU, selecione a versão do software. Ao criar uma VM da Cloud TPU, a versão do software de TPU especifica a versão do ambiente de execução da TPU a ser instalada. Ao criar um nó da Cloud TPU, a versão do software de TPU permite que você escolha o framework de ML instalado na VM do nó. Nenhuma outra configuração é necessária. Para mais informações, consulte Modelos compatíveis.
  8. Clique em CRIAR para criar os recursos.

Como se conectar a uma VM da Cloud TPU

$ gcloud compute ssh tpu-name\
  --zone=zone

Como listar recursos do Cloud TPU

É possível listar toda a Cloud TPU em uma zona especificada.

Como listar recursos do Cloud TPU usando gcloud

$ gcloud compute tpus execution-groups list --zone=zone

Esse comando lista os recursos da Cloud TPU na zona especificada. Se nenhum recurso estiver configurado no momento, a saída mostrará apenas traços para a VM e a TPU. Se um recurso estiver ativo e o outro não, você verá uma mensagem informando que o status não é íntegro. Você precisa iniciar ou reiniciar o recurso que não estiver em execução.

Como listar recursos do Cloud TPU usando o Console do GCP

  1. Navegue até o Console do Google Cloud.

  2. No menu de navegação, selecione Compute Engine > TPUs. O console exibe a página TPUs.

Como recuperar informações sobre o Cloud TPU

É possível recuperar informações sobre uma Cloud TPU especificada.

Recuperar informações sobre uma Cloud TPU usando gcloud

$ gcloud compute tpus execution-groups describe tpu-name \
  --zone=zone

Recuperar informações sobre uma Cloud TPU usando o Console do Google Cloud

  1. Navegue até o Console do Google Cloud.
  2. No menu de navegação, selecione Compute Engine > TPUs. O console exibe a página TPUs.
  3. Clique no nome do Cloud TPU. A página de detalhes do Cloud TPU será exibida.

Como interromper seus recursos do Cloud TPU

É possível interromper um Cloud TPU para interromper as cobranças sem perder a configuração e o software da sua VM.

Como interromper uma Cloud TPU com gcloud

$ gcloud alpha compute tpus stop tpu-name \
  --zone=zone

Como interromper uma Cloud TPU no Console do GCP

  1. Navegue até o Console do Google Cloud.

  2. No menu de navegação, selecione Compute Engine > TPUs. O console exibe a página TPUs.

  3. Marque a caixa de seleção ao lado da Cloud TPU e clique em Parar.

Como iniciar recursos do Cloud TPU

É possível iniciar uma Cloud TPU quando ela for interrompida.

Como iniciar um Cloud TPU com gcloud

$ gcloud alpha compute tpus start tpu-name --zone=zone

Como iniciar um Cloud TPU no Console do GCP

  1. Navegue até o Console do Google Cloud.

  2. No menu de navegação, selecione Compute Engine > TPUs. O console exibe a página TPUs.

  3. Marque a caixa de seleção ao lado de sua Cloud TPU e clique em Iniciar.

Como excluir os recursos do Cloud TPU e da VM do Compute Engine

É possível excluir a Cloud TPU quando terminar de usá-la.

Como excluir uma Cloud TPU usando gcloud

$ gcloud compute tpus execution-groups delete tpu-name \
  --zone=zone

Descrições de sinalizações de comando

zone
A zona em que você planeja criar a Cloud TPU.

Como excluir uma Cloud TPU usando o Console do GCP

  1. Navegue até o Console do Google Cloud.

  2. No menu de navegação, selecione Compute Engine > TPUs. O console exibe a página TPUs.

  3. Marque a caixa de seleção ao lado de sua Cloud TPU e clique em Excluir.