Como executar o MNIST na Cloud TPU

Neste tutorial, você encontra uma descrição detalhada do modelo do MNIST, instruções sobre o download da amostra de código da TPU para MNIST no TensorFlow e um guia para executá-la no Cloud TPU.

Descrição do modelo

O conjunto de dados MNIST contém um grande número de imagens de dígitos escritos à mão no intervalo de 0 a 9, bem como os marcadores que identificam o dígito em cada imagem.

Neste tutorial, treinamos um modelo de machine learning para classificar imagens com base nesse conjunto. Após o treinamento, o modelo classifica as imagens recebidas em dez categorias (0 a 9) com base no que ele aprendeu sobre as imagens manuscritas do conjunto de dados MNIST. Em seguida, envie ao modelo uma imagem que ele não tenha visto antes, e o modelo identifica o dígito nela com base no que aprendeu durante o treinamento.

O conjunto de dados MNIST foi dividido em três partes:

  • 55.000 exemplos de dados de treinamento;
  • 10.000 exemplos de dados de teste;
  • 5.000 exemplos de dados de validação.

Você encontra mais informações sobre o conjunto de dados no site do banco de dados do MNIST.

O modelo inclui sete camadas:

  • duas de convolução
  • duas de pool máximo
  • duas densas (totalmente conectadas)
  • uma de dropout

A perda é calculada por meio da função softmax.

Esta versão do modelo do MNIST usa o tf.estimator, que é uma API detalhada do TensorFlow recomendada para criar e executar um modelo de aprendizado de máquina em um Cloud TPU.

A API Tensorflow Estimator simplifica o processo de desenvolvimento do modelo ao ocultar a maior parte da implementação de nível baixo. Isso também facilita a alternância entre a TPU e outras plataformas de teste como GPUs e CPUs.

Objetivos

  • Criar um bucket do Cloud Storage para armazenar o conjunto de dados e a saída do modelo.
  • Executar o job de treinamento.
  • Verificar os resultados da saída.

Custos

Neste tutorial, há componentes faturáveis do Google Cloud, entre eles:

  • Compute Engine
  • Cloud TPU
  • Cloud Storage

Use a calculadora de preços para gerar uma estimativa de custos baseada na projeção de uso.

Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

Antes de começar o tutorial, verifique se o projeto do Google Cloud foi configurado corretamente.

  1. Faça login na sua conta do Google.

    Se você ainda não tiver uma, inscreva-se.

  2. No Console do Cloud, na página do seletor de projetos, selecione ou crie um projeto do Cloud.

    Acessar a página do seletor de projetos

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud. Saiba como confirmar se a cobrança está ativada para o seu projeto.

  4. Este tutorial usa componentes faturáveis do Google Cloud. Consulte a página de preços da Cloud TPU para fazer uma estimativa dos custos. Para evitar cobranças desnecessárias, não se esqueça de apagar os recursos criados ao terminar de usá-los.

Configurar os recursos

Nesta seção, você verá como configurar os recursos do Cloud Storage, da VM e do Cloud TPU para tutoriais.

  1. Abra uma janela do Cloud Shell.

    Abra o Cloud Shell

  2. Crie uma variável para o ID do seu projeto.

    export PROJECT_ID=project-id
    
  3. Configure a ferramenta de linha de comando gcloud para usar o projeto em que a Cloud TPU será criada.

    gcloud config set project ${PROJECT_ID}
    
  4. Crie um bucket do Cloud Storage usando o seguinte comando:

    gsutil mb -p ${PROJECT_ID} -c standard -l europe-west4 -b on gs://bucket-name
    

    Esse bucket do Cloud Storage armazena os dados usados para treinar o modelo e os resultados do treinamento. A ferramenta ctpu up usada neste tutorial configura permissões padrão para a conta de serviço da Cloud TPU. Caso queira permissões mais específicas, consulte as permissões de nível de acesso.

    O local do bucket precisa estar na mesma região da máquina virtual (VM) e do nó da TPU. As VMs e os nós da TPU estão localizados em zonas específicas, que são subdivisões dentro de uma região.

  5. Inicie os recursos do Compute Engine necessários para isso usando o comando ctpu up.

    ctpu up --zone=europe-west4-a \
    --machine-type=n1-standard-8 \
    --tf-version=1.15.3 \
    --name=mnist-tutorial
    

    Para mais informações sobre o utilitário do CTPU, consulte Referência do CTPU.

  6. Quando solicitado, pressione y para criar os recursos da Cloud TPU.

Quando o comando ctpu up terminar a execução, verifique se o prompt do shell foi alterado de username@projectname para username@vm-name. Essa alteração mostra que você fez login na VM do Compute Engine. Caso não esteja conectado à instância do Compute Engine, execute o seguinte comando:

  gcloud compute ssh mnist-tutorial --zone=europe-west4-a

Daqui em diante, o prefixo (vm)$ significa que é preciso executar o comando na instância de VM do Compute Engine.

  1. Crie variáveis de ambiente para o bucket de armazenamento e o diretório de modelo. Substitua bucket-name pelo nome do seu bucket do Cloud Storage.
    (vm)$ export STORAGE_BUCKET=gs://bucket-name
    
    (vm)$ export TPU_NAME=mnist-tutorial
    (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/mnist
    (vm)$ export DATA_DIR=${STORAGE_BUCKET}/data
    (vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/tpu/models"
    

Buscar os dados

O conjunto de dados do MNIST é hospedado no site do banco de dados dele (em inglês). Siga as instruções abaixo para fazer o download dos dados, convertê-los para o formato necessário e fazer o upload deles para o Cloud Storage.

Fazer o download e converter os dados do MNIST

Com o script convert_to_records.py, você faz o download dos dados e os converte para o formato TFRecord necessário no modelo de exemplo do MNIST.

Use os comandos a seguir para executar o script e descompactar os arquivos:

(vm)$ python3 /usr/share/tensorflow/tensorflow/examples/how_tos/reading_data/convert_to_records.py --directory=./data
(vm)$ gunzip ./data/*.gz

Fazer o upload dos dados para o Cloud Storage

Faça upload dos dados para o bucket do Cloud Storage para que o servidor de TPU possa acessá-los:

(vm)$ gsutil cp -r ./data ${DATA_DIR}

Executar o modelo de TPU do MNIST

O modelo de TPU do MNIST vem pré-instalado na VM do Compute Engine no diretório a seguir:

/usr/share/tpu/models/official/mnist/

O código-fonte do modelo de TPU do MNIST também está disponível no GitHub (em inglês). É possível executar o modelo na Cloud TPU. Como opção, consulte como executar o modelo em uma máquina local.

Como executar o modelo na Cloud TPU

Nas etapas a seguir, o prefixo (vm)$ significa que você precisa executar o comando na VM do Compute Engine.

  1. Altere para o diretório do modelo:

      (vm)$ cd /usr/share/tpu/models/official/mnist/
    
  2. Execute o modelo do MNIST:

    (vm)$ python3 mnist_tpu.py \
      --tpu=${TPU_NAME} \
      --data_dir=${DATA_DIR} \
      --model_dir=${MODEL_DIR} \
      --use_tpu=True \
      --iterations=500 \
      --train_steps=2000
     
    Parâmetro Descrição
    tpu O nome do Cloud TPU. Observe que ctpu passa esse nome para a VM do Compute Engine como uma variável de ambiente (TPU_NAME). Se você não conseguir se conectar à VM ou perder a conexão, poderá se conectar executando ctpu up novamente. TPU_NAME não é definido se você se conectar à VM executando gcloud compute ssh.
    data_dir O diretório que contém os arquivos usados para treinamento.
    model_dir O diretório que contém os arquivos de modelo. O tutorial usa uma pasta no bucket do Cloud Storage. Caso ela ainda não exista, o script a criará. O model_dir precisa ser um caminho do Cloud Storage (gs://...). Você pode reutilizar uma pasta existente para carregar os dados atuais do ponto de verificação e armazenar pontos de verificação adicionais.
    iterations O número de etapas de treinamento a serem executadas na TPU antes de retornar o controle para o Python. Pode haver muita sobrecarga de comunicação, o que afeta negativamente o desempenho, se esse número for muito pequeno. Por exemplo, menor que 100.
    train_steps O número total de etapas, ou lotes, para executar no treinamento.

Como executar o modelo em uma máquina local (não TPU)

Para executar o modelo em uma máquina não TPU, omita --tpu e defina a seguinte sinalização:

--use_tpu=False

Isso faz com que o cálculo ocorra em uma GPU, se você tiver uma. Caso contrário, o cálculo volta para a CPU.

O que esperar

Por padrão, o modelo do tf.estimator informa o valor da perda e o horário da etapa no formato a seguir:

INFO:tensorflow:Calling model_fn.
INFO:tensorflow:Create CheckpointSaverHook.
INFO:tensorflow:Done calling model_fn.
INFO:tensorflow:TPU job name tpu_worker
INFO:tensorflow:Graph was finalized.
INFO:tensorflow:Running local_init_op.
INFO:tensorflow:Done running local_init_op.
INFO:tensorflow:Init TPU system
INFO:tensorflow:Start infeed thread controller
INFO:tensorflow:Starting infeed thread controller.
INFO:tensorflow:Start outfeed thread controller
INFO:tensorflow:Starting outfeed thread controller.
INFO:tensorflow:Enqueue next (500) batch(es) of data to infeed.
INFO:tensorflow:Dequeue next (500) batch(es) of data from outfeed.
INFO:tensorflow:Saving checkpoints for 500 into gs://ctpu-mnist-test/output/model.ckpt.
INFO:tensorflow:loss = 0.08896458, step = 0
INFO:tensorflow:loss = 0.08896458, step = 0
INFO:tensorflow:Enqueue next (500) batch(es) of data to infeed.
INFO:tensorflow:Dequeue next (500) batch(es) of data from outfeed.
INFO:tensorflow:Enqueue next (500) batch(es) of data to infeed.
INFO:tensorflow:Dequeue next (500) batch(es) of data from outfeed.
INFO:tensorflow:global_step/sec: 242.829
INFO:tensorflow:examples/sec: 248715
INFO:tensorflow:Enqueue next (500) batch(es) of data to infeed.
INFO:tensorflow:Dequeue next (500) batch(es) of data from outfeed.
INFO:tensorflow:Saving checkpoints for 2000 into gs://ctpu-mnist-test/output/model.ckpt.
INFO:tensorflow:Stop infeed thread controller
INFO:tensorflow:Shutting down InfeedController thread.
INFO:tensorflow:InfeedController received shutdown signal, stopping.
INFO:tensorflow:Infeed thread finished, shutting down.
INFO:tensorflow:Stop output thread controller
INFO:tensorflow:Shutting down OutfeedController thread.
INFO:tensorflow:OutfeedController received shutdown signal, stopping.
INFO:tensorflow:Outfeed thread finished, shutting down.
INFO:tensorflow:Shutdown TPU system.
INFO:tensorflow:Loss for final step: 0.044236258.

Limpar

As etapas abaixo mostram como evitar cobranças na sua conta do GCP pelo uso de recursos.

  1. Encerre a conexão com a VM do Compute Engine:

    (vm)$ exit
    

    Agora, o prompt precisa ser username@projectname, mostrando que você está no Cloud Shell.

  2. No Cloud Shell, execute ctpu delete com a sinalização --zone usada ao configurar a Cloud TPU para excluir a VM do Compute Engine e a Cloud TPU:

    $ ctpu delete --zone=europe-west4-a \
      --name=mnist-tutorial
    
  3. Execute ctpu status para garantir que não haja instâncias alocadas e evitar cobranças desnecessárias no uso da TPU. A exclusão pode levar vários minutos. Uma resposta como esta indica que não há mais instâncias alocadas:

    $ ctpu status --zone=europe-west4-a
    
    2018/04/28 16:16:23 WARNING: Setting zone to "europe-west4-a"
    No instances currently exist.
        Compute Engine VM:     --
        Cloud TPU:             --
    
  4. Execute gsutil conforme mostrado. Substitua bucket-name pelo nome do bucket do Cloud Storage criado para este tutorial:

    $ gsutil rm -r gs://bucket-name
    

A seguir

Neste tutorial, você treinou o modelo MNIST usando um conjunto de dados de amostra. Os resultados deste treinamento (na maioria dos casos) não podem ser usados para inferência. Para usar um modelo para inferência, é possível treinar os dados em um conjunto de dados disponível publicamente ou no seu próprio conjunto de dados. Os modelos treinados nas Cloud TPUs exigem que os conjuntos de dados estejam no formato TFRecord.

Use a amostra da ferramenta de conversão de conjunto de dados para converter um conjunto de dados de classificação de imagem no formato TFRecord. Se você não estiver usando um modelo de classificação de imagem, converta manualmente o conjunto de dados para o TFRecord. Para mais informações, consulte TFRecord e tf.Example

Ajuste de hiperparâmetros

Para melhorar o desempenho do modelo com o conjunto de dados, é possível ajustar os hiperparâmetros. Encontre informações sobre hiperparâmetros comuns a todos os modelos compatíveis com a TPU no GitHub. As informações sobre hiperparâmetros específicos do modelo podem ser encontradas no código-fonte de cada modelo. Para mais informações sobre o ajuste de hiperparâmetros, consulte Visão geral do ajuste de hiperparâmetros, Como usar o serviço de ajuste de hiperparâmetros e Ajustar hiperparâmetros.

Inferência

Depois de treinar o modelo, é possível usá-lo para inferência (também chamada de previsão). O AI Platform é uma solução baseada em nuvem para desenvolver, treinar e implantar modelos de machine learning. Depois que um modelo é implantado, use o serviço do AI Platform Prediction.