Esta página foi traduzida pela API Cloud Translation.

Como executar o MNIST no Cloud TPU (TF 2.x)

Este tutorial contém uma descrição de alto nível do modelo do MNIST, instruções sobre como fazer o download do exemplo de código de TPU do TensorFlow do MNIST e um guia para executar o código no Cloud TPU.

Exoneração de responsabilidade

Este tutorial usa um conjunto de dados de terceiros. O Google não oferece declarações, proteções ou outras garantias sobre a validade ou quaisquer outros aspectos desse conjunto de dados.

Descrição do modelo

O conjunto de dados MNIST contém um grande número de imagens de dígitos escritos à mão no intervalo de 0 a 9, bem como os marcadores que identificam o dígito em cada imagem.

Neste tutorial, treinamos um modelo de machine learning para classificar imagens com base nesse conjunto. Após o treinamento, o modelo classifica as imagens recebidas em dez categorias (0 a 9) com base no que ele aprendeu sobre as imagens manuscritas do conjunto de dados MNIST. Em seguida, envie ao modelo uma imagem que ele não tenha visto antes, e o modelo identifica o dígito nela com base no que aprendeu durante o treinamento.

O conjunto de dados MNIST foi dividido em três partes:

60.000 exemplos de dados de treinamento;
10.000 exemplos de dados de teste;
5.000 exemplos de dados de validação.

O modelo inclui sete camadas:

duas de convolução
duas de pool máximo
duas densas (totalmente conectadas)
uma de dropout

A perda é calculada usando a entropia cruzada categórica.

Essa versão do modelo MNIST usa a API Keras, uma maneira recomendada de criar e executar um modelo de machine learning em um Cloud TPU.

O Keras simplifica o processo de desenvolvimento do modelo ocultando a maior parte da implementação de baixo nível, o que também facilita a alternância entre a TPU e outras plataformas de teste, como GPUs ou CPUs.

Objetivos

Criar um bucket do Cloud Storage para armazenar o conjunto de dados e a saída do modelo.
Executar o job de treinamento.
Verificar os resultados da saída.

Custos

Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:

Compute Engine
Cloud TPU
Cloud Storage

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

Nesta seção, você verá como configurar o bucket do Cloud Storage e a VM do Compute Engine.

Abra uma janela do Cloud Shell.

Abrir o Cloud Shell
Crie uma variável para o ID do seu projeto.
```
export PROJECT_ID=project-id
```
Configure a Google Cloud CLI para usar o projeto em que você quer criar a Cloud TPU.
```
gcloud config set project ${PROJECT_ID}
```
Na primeira vez que você executar esse comando em uma nova VM do Cloud Shell, será exibida uma página Authorize Cloud Shell. Clique em Authorize na parte de baixo da página para permitir que gcloud faça chamadas de API do Google Cloud com suas credenciais.

Crie uma conta de serviço para o projeto da Cloud TPU.

gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID

O comando retorna uma conta de serviço do Cloud TPU com o seguinte formato:

service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com

Crie um bucket do Cloud Storage usando o seguinte comando:

Observação: no comando a seguir, substitua bucket-name pelo nome que você quer atribuir ao bucket.
```
gsutil mb -p ${PROJECT_ID} -c standard -l us-central1 gs://bucket-name
```
Esse bucket do Cloud Storage armazena os dados usados para treinar o modelo e os resultados do treinamento. O comando gcloud usado neste tutorial configura permissões padrão para a conta de serviço do Cloud TPU configurada na etapa anterior. Caso queira permissões mais específicas, consulte as permissões de nível de acesso.
Use o comando gcloud para iniciar uma VM do Compute Engine e a Cloud TPU. O comando usado depende se você usa VMs ou nós de TPU. Para mais informações, consulte Arquitetura do sistema.
VM de TPU
```
$ gcloud compute tpus tpu-vm create mnist-tutorial \
--zone=us-central1-b \
--accelerator-type=v3-8 \
--version=tpu-vm-tf-2.16.1-pjrt \
```
Descrições de sinalizações de comando

zone

A zona em que você planeja criar o Cloud TPU.

accelerator-type

O tipo de acelerador especifica a versão e o tamanho do Cloud TPU que você quer criar. Para mais informações sobre os tipos de aceleradores compatíveis com cada versão de TPU, consulte Versões de TPU.

version

A versão do software do Cloud TPU.
Nó da TPU
```
$ gcloud compute tpus execution-groups create \
--name=mnist-tutorial \
--zone=us-central1-b \
--tf-version=2.12.0 \
--machine-type=n1-standard-1 \
--accelerator-type=v3-8 \
```
Descrições de sinalizações de comando

name

O nome do Cloud TPU a ser criado.

zone

A zona em que você planeja criar o Cloud TPU.

tf-version

A versão do TensorFlow que o comando gcloud é instalado na sua VM.

machine-type

O tipo de máquina da VM do Compute Engine a ser criada.

accelerator-type

O tipo do Cloud TPU a ser criado.
Para mais informações sobre o comando gcloud, consulte a referência da gcloud.
Quando o comando gcloud compute tpus terminar a execução, verifique se o prompt do shell foi alterado de username@projectname para username@vm-name. Essa alteração mostra que você fez login na VM do Compute Engine.

Se você não estiver conectado à instância do Compute Engine, poderá se conectar executando o seguinte comando:
VM de TPU
```
gcloud compute tpus tpu-vm ssh mnist-tutorial --zone=us-central1-b
```
Nó de TPU
```
gcloud compute ssh mnist-tutorial --zone=us-central1-b
```
Ao seguir essas instruções, execute cada comando iniciado por (vm)$ na janela de sessão da VM.

Crie uma variável de ambiente para o nome da TPU.

VM de TPU

(vm)$ export TPU_NAME=local

Nó de TPU

(vm)$ export TPU_NAME=mnist-tutorial

Instale os requisitos do TensorFlow.

O comando usado depende se você usa VMs ou nós de TPU.

VM de TPU

(vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt

Nó da TPU

(vm)$ pip3 install --user tensorflow-model-optimization>=0.1.3

Treine o modelo

O código-fonte do modelo de TPU do MNIST está disponível no GitHub (em inglês).

Configure as variáveis a seguir. Substitua bucket-name pelo nome do seu bucket:

(vm)$ export STORAGE_BUCKET=gs://bucket-name
(vm)$ export MODEL_DIR=${STORAGE_BUCKET}/mnist
(vm)$ export DATA_DIR=${STORAGE_BUCKET}/data

Defina a variável de ambiente PYTHONPATH

VM de TPU

(vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/tpu/models"

Nó da TPU

(vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/models"

Ao criar sua TPU, se você definir o parâmetro --version como uma versão que termina com -pjrt, defina as seguintes variáveis de ambiente para ativar o ambiente de execução PJRT:
```
  (vm)$ export NEXT_PLUGGABLE_DEVICE_USE_C_API=true
  (vm)$ export TF_PLUGGABLE_DEVICE_LIBRARY_PATH=/lib/libtpu.so
```

Mude para o diretório que armazena o modelo:

VM de TPU

(vm)$ cd /usr/share/tpu/models/official/legacy/image_classification

Nó da TPU

(vm)$ cd /usr/share/models/official/legacy/image_classification

Execute o script de treinamento do MNIST:
```
(vm)$ python3 mnist_main.py \
  --tpu=${TPU_NAME} \
  --model_dir=${MODEL_DIR} \
  --data_dir=${DATA_DIR} \
  --train_epochs=10 \
  --distribution_strategy=tpu \
  --download
```
Descrições de sinalizações de comando

tpu

O nome da Cloud TPU. Caso não tenha especificado quando configurou a VM do Compute Engine e a Cloud TPU, o padrão é seu nome de usuário.

model_dir

O bucket do Cloud Storage em que os checkpoints e os resumos são armazenados durante o treinamento. Use uma pasta atual para carregar os checkpoints gerados anteriormente criados em uma TPU do mesmo tamanho e versão do TensorFlow.

data_dir

O caminho do Cloud Storage da entrada de treinamento. Neste exemplo, ele está definido com o conjunto de dados fake_imagenet.

train_epochs

O número de períodos para treinar o modelo.

distribution_strategy

Para treinar o modelo ResNet em um Cloud TPU, defina distribution_strategy como tpu.

download

Quando definido como true, o script faz o download e pré-processa o conjunto de dados MNIST, caso ainda não tenha sido feito.

O script de treinamento é executado em menos de cinco minutos em um Cloud TPU v3-8 e exibe uma saída semelhante a:

Run stats:
{
  'accuracy_top_1': 0.9762369990348816,
  'eval_loss': 0.07863274961709976,
  'loss': 0.1111728847026825,
  'training_accuracy_top_1': 0.966645359992981
}

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

Desconecte-se da instância do Compute Engine, caso ainda não tenha feito isso:
```
(vm)$ exit
```
Agora, o prompt será username@projectname, mostrando que você está no Cloud Shell.
Exclua os recursos do Cloud TPU e do Compute Engine. O comando usado para excluir os recursos depende se você está usando VMs ou nós de TPU. Para mais informações, consulte Arquitetura do sistema.
VM de TPU
```
$ gcloud compute tpus tpu-vm delete mnist-tutorial \
--zone=us-central1-b
```
Nó de TPU
```
$ gcloud compute tpus execution-groups delete mnist-tutorial \
--zone=us-central1-b
```
Execute gcloud compute tpus execution-groups list para verificar se os recursos foram excluídos. A exclusão pode levar vários minutos. A saída do comando a seguir não pode incluir nenhum dos recursos criados neste tutorial:
VM de TPU
```
$ gcloud compute tpus tpu-vm list --zone=us-central1-b
```
Nó da TPU
```
$ gcloud compute tpus execution-groups list --zone=us-central1-b
```
Exclua o bucket do Cloud Storage usando gsutil, conforme mostrado no exemplo a seguir. Substitua bucket-name pelo nome do bucket do Cloud Storage.
```
$ gsutil rm -r gs://bucket-name
```

A seguir

Geralmente, os tutoriais do Cloud TPU do TensorFlow treinam o modelo usando um conjunto de dados de amostra. Os resultados deste treinamento não podem ser usados para inferência. Para usar um modelo para inferência, treine os dados em um conjunto de dados disponível publicamente ou no seu próprio conjunto de dados. Os modelos do TensorFlow treinados em Cloud TPUs geralmente exigem que os conjuntos de dados estejam no formato TFRecord.

Use a amostra da ferramenta de conversão de conjunto de dados para converter um conjunto de dados de classificação de imagens no formato TFRecord. Se você não estiver usando um modelo de classificação de imagens, será necessário converter seu conjunto de dados para o formato TFRecord. Para mais informações, consulte TFRecord e tf.Example.

Ajuste de hiperparâmetros

Para melhorar o desempenho do modelo com seu conjunto de dados, é possível ajustar os hiperparâmetros do modelo. Veja informações sobre hiperparâmetros comuns a todos os modelos compatíveis com TPU no GitHub. As informações sobre hiperparâmetros específicos do modelo estão disponíveis no código-fonte de cada modelo. Para mais informações sobre o ajuste de hiperparâmetros, consulte Visão geral do ajuste de hiperparâmetros e Ajustar hiperparâmetros.

Inferência

Depois de treinar o modelo, é possível usá-lo para inferência (também chamada de previsão). É possível usar a ferramenta de conversão de inferência do Cloud TPU para preparar e otimizar um modelo do TensorFlow para inferência no Cloud TPU v5e. Para mais informações sobre inferência no Cloud TPU v5e, consulte Introdução à inferência no Cloud TPU v5e.

Execute um colab do Cloud TPU que demonstra como executar um modelo de classificação de imagem usando seus próprios dados de imagem.
Explore os outros tutoriais da Cloud TPU.
Aprenda a usar as ferramentas de monitoramento de TPU no TensorBoard.
Verifique o desempenho em um modelo de grande escala ao executar a amostra do ResNet.

Como executar o MNIST no Cloud TPU (TF 2.x)

Exoneração de responsabilidade

Descrição do modelo

Objetivos

Custos

Antes de começar

VM de TPU

Descrições de sinalizações de comando

Nó da TPU

Descrições de sinalizações de comando

VM de TPU

Nó de TPU

VM de TPU

Nó de TPU

VM de TPU

Nó da TPU

Treine o modelo

VM de TPU

Nó da TPU

VM de TPU

Nó da TPU

Descrições de sinalizações de comando

Limpar

VM de TPU

Nó de TPU

VM de TPU

Nó da TPU

A seguir

Ajuste de hiperparâmetros

Inferência