Como executar o MNIST no Cloud TPU

Neste tutorial, você encontra uma descrição detalhada do modelo do MNIST, instruções sobre o download da amostra de código da TPU para MNIST no TensorFlow e um guia para executá-la no Cloud TPU.

Exoneração de responsabilidade

Este tutorial usa um conjunto de dados de terceiros. O Google não oferece declarações, proteções ou outras garantias sobre a validade ou quaisquer outros aspectos desse conjunto de dados.

Descrição do modelo

Com este modelo, você prevê o rótulo correto, ou seja, os dígitos, em um conjunto de dados do MNIST que foi dividido em três partes:

  • 55.000 exemplos de dados de treinamento;
  • 10.000 exemplos de dados de teste;
  • 5.000 exemplos de dados de validação.

Você encontra mais informações sobre o conjunto de dados no site do banco de dados do MNIST.

O modelo inclui sete camadas:

  • duas de convolução
  • duas de pool máximo
  • duas densas (totalmente conectadas)
  • uma de dropout

A perda é calculada por meio da função softmax.

Esta versão do modelo do MNIST usa o tf.estimator, que é uma API detalhada do TensorFlow recomendada para criar e executar um modelo de aprendizado de máquina em um Cloud TPU.

A API Tensorflow Estimator simplifica o processo de desenvolvimento do modelo ao ocultar a maior parte da implementação de nível baixo. Isso também facilita a alternância entre a TPU e outras plataformas de teste como GPUs e CPUs.

Antes de começar

Antes de começar o tutorial, verifique se o projeto do Google Cloud Platform foi configurado corretamente.

  1. Faça login na sua Conta do Google.

    Se você ainda não tiver uma, inscreva-se.

  2. Selecione ou crie um projeto do GCP.

    Acessar a página Gerenciar recursos

  3. Verifique se o faturamento foi ativado para o projeto.

    Saiba como ativar o faturamento

  4. Estas instruções incluem componentes faturáveis do Google Cloud Platform. Consulte a página de preços do Cloud TPU para estimar os custos. Depois, siga as instruções para limpar os recursos quando eles não forem mais necessários.

Criar um intervalo do Cloud Storage

Você precisa de um intervalo do Cloud Storage para armazenar os dados usados para treinar o modelo de aprendizado de máquina, bem como os resultados do treinamento.

  1. Acesse a página do Cloud Storage no Console do GCP.

    Acessar a página do Cloud Storage

  2. Crie um novo intervalo especificando as opções a seguir:

    • um nome exclusivo à sua escolha
    • classe de armazenamento padrão: Regional
    • localização: us-central1

Abrir o Cloud Shell e usar a ferramenta ctpu

Neste guia, usamos o Cloud TPU Provisioning Utility (ctpu) como uma ferramenta simples para configurar e gerenciar o Cloud TPU. O guia executa o ctpu a partir de um Cloud Shell. Para encontrar opções de configuração mais avançadas, consulte a configuração personalizada.

A ferramenta ctpu vem pré-instalada no Cloud Shell. Siga estas etapas para verificar a configuração do ctpu:

  1. Abra uma janela do Cloud Shell.

    Abrir o Cloud Shell

  2. Para verificar a configuração do ctpu, digite o seguinte no Cloud Shell:

    $ ctpu print-config
    

    Você verá uma mensagem como esta:

    2018/04/29 05:23:03 WARNING: Setting zone to "us-central1-b"
    ctpu configuration:
            name: [your TPU's name]
            project: [your-project-name]
            zone: us-central1-b
    If you would like to change the configuration for a single command invocation, please use the command line flags.
    

  3. Confira os comandos do ctpu:

    $ ctpu

    Você verá um guia de uso, incluindo uma lista de subcomandos e sinalizações com uma breve descrição de cada.

Criar uma VM do Compute Engine e um Cloud TPU

Execute o comando a seguir para configurar uma máquina virtual (VM, na sigla em inglês) do Compute Engine e um Cloud TPU com serviços associados. Essa combinação de recursos e serviços é chamada de lote do Cloud TPU:

$ ctpu up

Com o comando ctpu up, você executa as tarefas a seguir:

  • Ativar os serviços do Cloud TPU e Compute Engine.
  • Criar uma VM do Compute Engine com a última versão estável do TensorFlow pré-instalada. A zona padrão é us-central1-b. Como referência, o Cloud TPU está disponível nas zonas a seguir:

    • Estados Unidos (EUA)
      • us-central1-b
      • us-central1-c
      • us-central1-f (apenas o programa TFRC)
    • Europa (EU)
      • europe-west4-a
    • Ásia-Pacífico (APAC)
      • asia-east1-c

  • Criar um Cloud TPU com a versão correspondente do TensorFlow e transmitir o nome do Cloud TPU para a VM do Compute Engine como uma variável de ambiente (TPU_NAME).

  • Garantir que o Cloud TPU tenha acesso aos recursos necessários no projeto do GCP. Isso é feito ao conceder papéis específicos do IAM à conta de serviço do Cloud TPU.
  • Executar várias outras verificações.
  • Fazer login na nova VM do Compute Engine.

É possível executar ctpu up quantas vezes quiser. Por exemplo, se você perder a conexão SSH com a VM do Compute Engine, basta executar ctpu up para restaurá-la.

Daqui em diante, o prefixo (vm)$ significa que você precisa executar o comando na instância de VM do Compute Engine.

Verificar a VM do Compute Engine

Quando a execução do comando ctpu up terminar, siga as seguintes etapas:

  1. Verifique se o prompt do shell mudou de username@project para username@username. Essa alteração mostra que você fez login na VM do Compute Engine.

  2. Execute o comando a seguir para verificar a instalação do TensorFlow:

    (vm)$ python -c "import tensorflow; print(tensorflow.VERSION)"
    

    Você verá uma mensagem de aviso seguida por uma linha que exibe o número da versão do TensorFlow. Por exemplo: 1.8.0.

Conseguir os dados

O conjunto de dados do MNIST é hospedado no site do banco de dados dele. Siga as instruções abaixo para fazer o download dos dados, convertê-los para o formato necessário e fazer o upload deles para o Cloud Storage.

Fazer o download e converter os dados do MNIST

Com o script convert_to_records.py, você faz o download dos dados e os converte para o formato TFRecord necessário no modelo de exemplo do MNIST.

Use os comandos a seguir para executar o script e descompactar os arquivos:

(vm)$ python /usr/share/tensorflow/tensorflow/examples/how_tos/reading_data/convert_to_records.py --directory=./data
(vm)$ gunzip ./data/*.gz

Fazer o upload dos dados para o Cloud Storage

Faça upload dos dados para o intervalo do Cloud Storage para que o servidor de TPU possa acessá-los. Ao definir a variável nos comandos abaixo, substitua YOUR-BUCKET-NAME pelo nome do intervalo do Cloud Storage:

(vm)$ export STORAGE_BUCKET=gs://YOUR-BUCKET-NAME
(vm)$ gsutil cp -r ./data ${STORAGE_BUCKET}

Configurar o TensorBoard

Antes de treinar o modelo, inicie o TensorBoard em segundo plano para ver o andamento do programa de treinamento:

(vm)$ tensorboard --logdir=${STORAGE_BUCKET}/output &

Ao executar ctpu up, a ferramenta configura automaticamente o encaminhamento de portas no ambiente do Cloud Shell para disponibilizar o TensorBoard.

Clique no botão Visualização da Web no Cloud Shell e abra a porta 8080.

Executar o modelo de TPU do MNIST

O modelo de TPU do MNIST vem pré-instalado na VM do Compute Engine no diretório a seguir:

/usr/share/models/official/mnist/

O código-fonte do modelo de TPU do MNIST também está disponível no GitHub. É possível executar o modelo em um Cloud TPU. Se preferir, veja como executá-lo em uma máquina local.

Como executar o modelo no Cloud TPU

Nas etapas a seguir, o prefixo (vm)$ significa que você precisa executar o comando na VM do Compute Engine:

  1. Como o TensorBoard agora está em execução na guia do Cloud Shell, você precisa de outra para trabalhar. Abra outra guia no Cloud Shell e use o ctpu no novo shell para se conectar à VM do Compute Engine:

    $ ctpu up

  2. Execute o modelo do MNIST:

    (vm)$ python /usr/share/models/official/mnist/mnist_tpu.py \
      --tpu=$TPU_NAME \
      --data_dir=${STORAGE_BUCKET}/data \
      --model_dir=${STORAGE_BUCKET}/output \
      --use_tpu=True \
      --iterations=500 \
      --train_steps=2000
    

    • --tpu especifica o nome do Cloud TPU. O ctpu transmite esse nome para a VM do Compute Engine como uma variável de ambiente (TPU_NAME).
    • --data_dir especifica o caminho do Cloud Storage para a entrada do treinamento.
    • --model_dir especifica o diretório em que os pontos de verificação e resumos são armazenados durante o treinamento do modelo. Se a pasta não existir, o programa criará uma. Ao usar um Cloud TPU, o model_dir precisa ser um caminho do Cloud Storage (gs://...). É possível reutilizar uma pasta existente para carregar os dados do ponto de verificação atual e armazenar novos pontos.
    • --iterations especifica o número de etapas de treinamento a serem executadas na TPU em cada chamada antes de devolver o controle ao Python. Pode haver muita sobrecarga de comunicação, o que afeta negativamente o desempenho, se esse número for muito pequeno. Por exemplo, menor que 100.
    • --train_steps especifica o número total de etapas ou lotes para executar no treinamento.

Como executar o modelo em uma máquina local (não TPU)

Para fazer isso, omita --tpu e defina a sinalização a seguir:

--use_tpu=False

Isso faz com que o cálculo ocorra em uma GPU, se você tiver uma. Caso contrário, o cálculo volta para a CPU.

O que esperar

Por padrão, o modelo do tf.estimator informa o valor da perda e o horário da etapa no formato a seguir:

    INFO:tensorflow:Calling model_fn.
    INFO:tensorflow:Create CheckpointSaverHook.
    INFO:tensorflow:Done calling model_fn.
    INFO:tensorflow:TPU job name tpu_worker
    INFO:tensorflow:Graph was finalized.
    INFO:tensorflow:Running local_init_op.
    INFO:tensorflow:Done running local_init_op.
    INFO:tensorflow:Init TPU system
    INFO:tensorflow:Start infeed thread controller
    INFO:tensorflow:Starting infeed thread controller.
    INFO:tensorflow:Start outfeed thread controller
    INFO:tensorflow:Starting outfeed thread controller.
    INFO:tensorflow:Enqueue next (500) batch(es) of data to infeed.
    INFO:tensorflow:Dequeue next (500) batch(es) of data from outfeed.
    INFO:tensorflow:Saving checkpoints for 500 into gs://ctpu-mnist-test/output/model.ckpt.
    INFO:tensorflow:loss = 0.08896458, step = 0
    INFO:tensorflow:loss = 0.08896458, step = 0
    INFO:tensorflow:Enqueue next (500) batch(es) of data to infeed.
    INFO:tensorflow:Dequeue next (500) batch(es) of data from outfeed.
    INFO:tensorflow:Enqueue next (500) batch(es) of data to infeed.
    INFO:tensorflow:Dequeue next (500) batch(es) of data from outfeed.
    INFO:tensorflow:global_step/sec: 242.829
    INFO:tensorflow:examples/sec: 248715
    INFO:tensorflow:Enqueue next (500) batch(es) of data to infeed.
    INFO:tensorflow:Dequeue next (500) batch(es) of data from outfeed.
    INFO:tensorflow:Saving checkpoints for 2000 into gs://ctpu-mnist-test/output/model.ckpt.
    INFO:tensorflow:Stop infeed thread controller
    INFO:tensorflow:Shutting down InfeedController thread.
    INFO:tensorflow:InfeedController received shutdown signal, stopping.
    INFO:tensorflow:Infeed thread finished, shutting down.
    INFO:tensorflow:Stop output thread controller
    INFO:tensorflow:Shutting down OutfeedController thread.
    INFO:tensorflow:OutfeedController received shutdown signal, stopping.
    INFO:tensorflow:Outfeed thread finished, shutting down.
    INFO:tensorflow:Shutdown TPU system.
    INFO:tensorflow:Loss for final step: 0.044236258.

Limpar

  1. Encerre a conexão com a VM do Compute Engine:

    (vm)$ exit
    

    O prompt agora será user@projectname, mostrando que você está no Cloud Shell.

  2. No Cloud Shell, execute o comando a seguir para excluir a VM do Compute Engine e o Cloud TPU:

    $ ctpu delete
    

  3. Execute ctpu status para garantir que você não tenha instâncias alocadas. A exclusão pode levar até dois minutos. Uma resposta como esta indica que não há mais instâncias alocadas:

    2018/04/28 16:16:23 WARNING: Setting zone to "us-central1-b"
    No instances currently exist.
            GCE VM:     --
            Cloud TPU:  --
    

  4. Quando você não precisar mais do intervalo do Cloud Storage criado neste tutorial, use o comando gsutil para excluí-lo. Substitua YOUR-BUCKET-NAME pelo nome do intervalo no Cloud Storage:

    $ gsutil rm -r gs://YOUR-BUCKET-NAME
    

    Consulte o guia de preços do Cloud Storage para se informar sobre os limites de armazenamento gratuito e outros preços.

Próximas etapas

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…