Esta página foi traduzida pela API Cloud Translation.
Switch to English

Como executar o MNIST no Cloud TPU (TF 2.x)

Neste tutorial, você encontra uma descrição detalhada do modelo do MNIST, instruções sobre o download da amostra de código da TPU para MNIST no TensorFlow e um guia para executá-la no Cloud TPU.

Exoneração de responsabilidade

Este tutorial usa um conjunto de dados de terceiros. O Google não oferece declarações, proteções ou outras garantias sobre a validade ou quaisquer outros aspectos desse conjunto de dados.

Descrição do modelo

O conjunto de dados MNIST contém um grande número de imagens de dígitos escritos à mão no intervalo de 0 a 9, bem como os marcadores que identificam o dígito em cada imagem.

Neste tutorial, treinamos um modelo de machine learning para classificar imagens com base nesse conjunto. Após o treinamento, o modelo classifica as imagens recebidas em dez categorias (0 a 9) com base no que ele aprendeu sobre as imagens manuscritas do conjunto de dados MNIST. Em seguida, envie ao modelo uma imagem que ele não tenha visto antes, e o modelo identifica o dígito nela com base no que aprendeu durante o treinamento.

O conjunto de dados MNIST foi dividido em três partes:

  • 60.000 exemplos de dados de treinamento;
  • 10.000 exemplos de dados de teste;
  • 5.000 exemplos de dados de validação.

Você encontra mais informações sobre o conjunto de dados no site do banco de dados do MNIST.

O modelo inclui sete camadas:

  • duas de convolução
  • duas de pool máximo
  • duas densas (totalmente conectadas)
  • uma de dropout

A perda é calculada por meio de entropia cruzada categórica.

Essa versão do modelo MNIST usa a API Keras, uma maneira recomendada de criar e executar um modelo de machine learning em um Cloud TPU.

O Keras simplifica o processo de desenvolvimento do modelo ocultando a maior parte da implementação de baixo nível, o que também facilita a alternância entre a TPU e outras plataformas de teste, como GPUs ou CPUs.

Objetivos

  • Criar um bucket do Cloud Storage para armazenar o conjunto de dados e a saída do modelo.
  • Executar o job de treinamento.
  • Verificar os resultados da saída.

Custos

Neste tutorial, há componentes faturáveis do Google Cloud, entre eles:

  • Compute Engine
  • Cloud TPU
  • Cloud Storage

Use a calculadora de preços para gerar uma estimativa de custos baseada na projeção de uso. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

Nesta seção, você verá como configurar o bucket do Cloud Storage e a VM do Compute Engine.

  1. Abra uma janela do Cloud Shell.

    Abrir o Cloud Shell

  2. Crie uma variável para o ID do seu projeto.

    export PROJECT_ID=project-id
    
  3. Configure a ferramenta de linha de comando gcloud para usar o projeto em que a Cloud TPU será criada.

    gcloud config set project ${PROJECT_ID}
    

    Na primeira vez que você executar esse comando em uma nova VM do Cloud Shell, será exibida uma página Authorize Cloud Shell. Clique em Authorize na parte inferior da página para permitir que gcloud faça chamadas de API do GCP com suas credenciais.

  4. Crie uma conta de serviço para o projeto da Cloud TPU.

    gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
    

    O comando retorna uma conta de serviço do Cloud TPU com o formato a seguir:

    service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
    

  5. Crie um bucket do Cloud Storage usando o seguinte comando:

    gsutil mb -p ${PROJECT_ID} -c standard -l us-central1 -b on gs://bucket-name
    

    Esse bucket do Cloud Storage armazena os dados usados para treinar o modelo e os resultados do treinamento. O comando gcloud usado neste tutorial configura permissões padrão para a conta de serviço do Cloud TPU configurada na etapa anterior. Caso queira permissões mais específicas, consulte as permissões de nível de acesso.

  6. Use o comando gcloud para iniciar uma VM do Compute Engine e a Cloud TPU.

    $ gcloud compute tpus execution-groups create \
     --name=mnist-tutorial \
     --zone=us-central1-b \
     --tf-version=2.4.1 \
     --machine-type=n1-standard-1 \
     --accelerator-type=v3-8
    

    Descrições de sinalizações de comando

    name
    O nome do Cloud TPU a ser criado.
    zone
    A zona em que você planeja criar a Cloud TPU.
    tf-version
    A versão do Tensorflow instala o comando gcloud na sua VM.
    machine-type
    O tipo de máquina da VM do Compute Engine a ser criada.
    accelerator-type
    O tipo do Cloud TPU a ser criado.

    Para mais informações sobre o comando gcloud, consulte a Referência do gcloud.

  7. Quando o comando gcloud compute tpus execution-groups terminar a execução, verifique se o prompt do shell foi alterado de username@projectname para username@vm-name. Essa alteração mostra que você fez login na VM do Compute Engine.

    gcloud compute ssh mnist-tutorial --zone=us-central1-b
    

    Ao seguir essas instruções, execute cada comando iniciado por (vm)$ na janela de sessão da VM.

  8. Crie uma variável de ambiente para o nome da TPU.

    (vm)$ export TPU_NAME=mnist-tutorial
    
  9. Instale um pacote extra.

    O aplicativo de treinamento MNIST requer um pacote extra. Instalar agora.

    (vm)$ sudo pip3 install tensorflow-model-optimization>=0.1.3
    

Treinamento sobre dispositivos de Cloud TPU único

O código-fonte do modelo de TPU do MNIST está disponível no GitHub (em inglês).

  1. Configure as variáveis a seguir. Substitua bucket-name pelo nome do seu bucket:

    (vm)$ export STORAGE_BUCKET=gs://bucket-name
    
    (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/mnist
    (vm)$ export DATA_DIR=${STORAGE_BUCKET}/data
    (vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/models"
    
  2. Mude para o diretório que armazena o modelo:

    (vm)$ cd /usr/share/models/official/vision/image_classification
    
  3. Execute o script de treinamento do MNIST:

    (vm)$ python3 mnist_main.py \
      --tpu=${TPU_NAME} \
      --model_dir=${MODEL_DIR} \
      --data_dir=${DATA_DIR} \
      --train_epochs=10 \
      --distribution_strategy=tpu \
      --download
    

    Descrições de sinalizações de comando

    tpu
    O nome da Cloud TPU. Caso não tenha especificado quando configurou a VM do Compute Engine e a Cloud TPU, o padrão é seu nome de usuário.
    model_dir
    O bucket do Cloud Storage em que os checkpoints e os resumos são armazenados durante o treinamento. Use uma pasta existente para carregar os checkpoints gerados anteriormente que foram criados em uma TPU do mesmo tamanho e versão do TensorFlow.
    data_dir
    O caminho do Cloud Storage da entrada de treinamento. Neste exemplo, ele está definido com o conjunto de dados fake_imagenet.
    train_epochs
    O número de épocas para treinar o modelo.
    distribution_strategy
    Para treinar o modelo ResNet em um Cloud TPU, defina distribution_strategy como tpu.
    download
    Quando definido como true, o script faz o download e pré-processa o conjunto de dados do MNIST, caso ainda não tenha feito o download.

O script de treinamento é executado em menos de cinco minutos em um Cloud TPU v3-8 e exibe uma saída semelhante a:

Run stats:
{
  'accuracy_top_1': 0.9762369990348816,
  'eval_loss': 0.07863274961709976,
  'loss': 0.1111728847026825,
  'training_accuracy_top_1': 0.966645359992981
}

Limpeza

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

  1. Desconecte-se da instância do Compute Engine, caso ainda não tenha feito isso:

    (vm)$ exit
    

    Agora, o prompt será username@projectname, mostrando que você está no Cloud Shell.

  2. Exclua os recursos do Cloud TPU e do Compute Engine.

    $ gcloud compute tpus execution-groups delete mnist-tutorial \
      --zone=us-central1-b
    
  3. Verifique se os recursos foram excluídos executando gcloud compute tpus execution-groups list. A exclusão pode levar vários minutos. Uma resposta como esta indica que suas instâncias foram excluídas com sucesso.

    $ gcloud compute tpus execution-groups list --zone=us-central1-b
    
    NAME             STATUS
    
  4. Exclua o bucket do Cloud Storage usando gsutil, conforme mostrado abaixo. Substitua bucket-name pelo nome do seu bucket no Cloud Storage.

    $ gsutil rm -r gs://bucket-name
    

A seguir

Neste tutorial, você treinou o modelo MNIST usando um conjunto de dados de amostra. Os resultados deste treinamento (na maioria dos casos) não podem ser usados para inferência. Para usar um modelo para inferência, é possível treinar os dados em um conjunto de dados disponível publicamente ou no seu próprio conjunto de dados. Os modelos treinados nas Cloud TPUs exigem que os conjuntos de dados estejam no formato TFRecord.

Use a amostra da ferramenta de conversão de conjunto de dados para converter um conjunto de dados de classificação de imagem no formato TFRecord. Se você não estiver usando um modelo de classificação de imagem, converta manualmente o conjunto de dados para o TFRecord. Para mais informações, consulte TFRecord e tf.Example

Ajuste de hiperparâmetros

Para melhorar o desempenho do modelo com o conjunto de dados, é possível ajustar os hiperparâmetros. Encontre informações sobre hiperparâmetros comuns a todos os modelos compatíveis com a TPU no GitHub. As informações sobre hiperparâmetros específicos do modelo podem ser encontradas no código-fonte de cada modelo. Para mais informações sobre o ajuste de hiperparâmetros, consulte Visão geral do ajuste de hiperparâmetros, Como usar o serviço de ajuste de hiperparâmetros e Ajustar hiperparâmetros.

Inferência

Depois de treinar o modelo, é possível usá-lo para inferência (também chamada de previsão). O AI Platform é uma solução baseada em nuvem para desenvolver, treinar e implantar modelos de machine learning. Depois que um modelo é implantado, use o serviço do AI Platform Prediction.