Questa versione precedente di AI Platform Training è ritirata e non sarà più disponibile su Google Cloud dopo il 31 gennaio 2025. Esegui la migrazione delle tue risorse all'addestramento personalizzato di Vertex AI per accedere a nuove funzionalità di machine learning non disponibili nella piattaforma AI.

Questa pagina è stata tradotta dall'API Cloud Translation.

Addestra un modello ML con container personalizzati

AI Platform Training supporta l'addestramento in container personalizzati, consentendo agli utenti di eseguire i propri container Docker con qualsiasi framework o algoritmo ML preinstallato su AI Platform Training. Questo tutorial fornisce una procedura dettagliata introduttiva che mostra come addestrare un modello PyTorch in AI Platform Training con un container personalizzato.

Panoramica

Questa guida introduttiva illustra il processo di addestramento con container personalizzati su AI Platform Training, utilizzando un modello di base che classifica le cifre scritte a mano in base al set di dati MNIST.

Questa guida illustra i seguenti passaggi:

Configurazione del progetto e dell'ambiente locale
Crea un container personalizzato
- Scrivere un Dockerfile
- Crea e testa l'immagine Docker localmente
Esegui il push dell'immagine in Container Registry
Invia un job di addestramento di container personalizzato
Invio di un job di ottimizzazione degli iperparametri
Utilizzo di GPU con un container personalizzato

Prima di iniziare

Per questa guida introduttiva, utilizza qualsiasi ambiente in cui è installato Google Cloud CLI.

(Facoltativo) Esamina le informazioni concettuali sull'addestramento con container personalizzati.

Completa i seguenti passaggi per configurare un account Google Cloud, abilitare le API richieste, installare e attivare Cloud SDK.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the AI Platform Training & Prediction, Compute Engine and Container Registry APIs.

Enable the APIs

Install the Google Cloud CLI.

To initialize the gcloud CLI, run the following command:

gcloud init

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the AI Platform Training & Prediction, Compute Engine and Container Registry APIs.

Enable the APIs

Install the Google Cloud CLI.

To initialize the gcloud CLI, run the following command:

gcloud init

Installa Docker.
Se utilizzi un sistema operativo basato su Linux, ad esempio Ubuntu o Debian, aggiungi il tuo nome utente al gruppo docker in modo da poter eseguire Docker senza utilizzare sudo:
```
sudo usermod -a -G docker ${USER}
```
Attenzione: il gruppo docker è equivalente all'utente root. Consulta la documentazione di Docker per informazioni dettagliate su come questo influisce sulla sicurezza del sistema.

Potresti dover riavviare il sistema dopo aver aggiunto te stesso al gruppo docker.
Apri Docker. Per assicurarti che Docker sia in esecuzione, esegui il seguente comando Docker, che restituisce la data e l'ora correnti:
```
docker run busybox date
```
Utilizza gcloud come assistente per le credenziali per Docker:
```
gcloud auth configure-docker
```
(Facoltativo) Se vuoi eseguire il contenitore utilizzando la GPU in locale, installa nvidia-docker.

Configura il bucket Cloud Storage

Questa sezione spiega come creare un nuovo bucket. Puoi utilizzare un bucket esistente, ma deve trovarsi nella stessa regione in cui prevedi di eseguire i job di AI Platform. Inoltre, se non fa parte del progetto che utilizzi per eseguire AI Platform Training, devi esplicitamente concedere accesso agli account di servizio AI Platform Training.

Specifica un nome per il nuovo bucket. Il nome deve essere univoco in tutti i bucket di Cloud Storage.
```
BUCKET_NAME="YOUR_BUCKET_NAME"
```
Ad esempio, utilizza il nome del progetto con -aiplatform aggiunto:
```
PROJECT_ID=$(gcloud config list project --format "value(core.project)")
BUCKET_NAME=${PROJECT_ID}-aiplatform
```
Controlla il nome del bucket che hai creato.
```
echo $BUCKET_NAME
```
Seleziona una regione per il bucket e imposta una variabile di ambiente REGION.

Utilizza la stessa regione in cui prevedi di eseguire i job di AI Platform Training. Consulta le regioni disponibili per i servizi AI Platform Training.

Ad esempio, il seguente codice crea REGION e lo imposta su us-central1:
```
REGION=us-central1
```

Crea il nuovo bucket:

gcloud storage buckets create gs://$BUCKET_NAME --location=$REGION

Scarica il codice per questo tutorial

Inserisci il seguente comando per scaricare il file ZIP di esempio di AI Platform Training:
```
wget https://github.com/GoogleCloudPlatform/cloudml-samples/archive/master.zip
```
Decomprimi il file per estrarre la directory cloudml-samples-master.
```
unzip master.zip
```
Vai alla directory cloudml-samples-master > pytorch > containers > quickstart > mnist. I comandi in questa procedura dettagliata devono essere eseguiti dalla directory mnist.
```
cd cloudml-samples-master/pytorch/containers/quickstart/mnist
```

Creazione di un container personalizzato

Per creare un contenitore personalizzato, il primo passaggio consiste nel definire un Dockerfile per installare le dipendenze richieste per il job di addestramento. Quindi, crea e testa l'immagine Docker localmente per verificarla prima di utilizzarla con AI Platform Training.

Scrivere un Dockerfile

Il Dockerfile di esempio fornito in questo tutorial esegue i seguenti passaggi:

Utilizza un'immagine di base Python 2.7 con dipendenze Python integrate.
Installa dipendenze aggiuntive, tra cui PyTorch, gcloud CLI e cloudml-hypertune per l'ottimizzazione degli iperparametri.
Copia il codice dell'applicazione di addestramento nel contenitore.
Configura il punto di ingresso per AI Platform Training in modo da eseguire il codice di addestramento al momento dell'avvio del contenitore.

Il Dockerfile potrebbe includere una logica aggiuntiva, a seconda delle tue esigenze. Scopri di più sulla scrittura di Dockerfile.

# Copyright 2019 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the \"License\");
# you may not use this file except in compliance with the License.\n",
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an \"AS IS\" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# Dockerfile
FROM python:2.7.16-jessie
WORKDIR /root

# Installs pytorch and torchvision.
RUN pip install torch==1.0.0 torchvision==0.2.1

# Installs cloudml-hypertune for hyperparameter tuning.
# It’s not needed if you don’t want to do hyperparameter tuning.
RUN pip install cloudml-hypertune

# Installs google cloud sdk, this is mostly for using gsutil to export model.
RUN wget -nv \
    https://dl.google.com/dl/cloudsdk/release/google-cloud-sdk.tar.gz && \
    mkdir /root/tools && \
    tar xvzf google-cloud-sdk.tar.gz -C /root/tools && \
    rm google-cloud-sdk.tar.gz && \
    /root/tools/google-cloud-sdk/install.sh --usage-reporting=false \
        --path-update=false --bash-completion=false \
        --disable-installation-options && \
    rm -rf /root/.config/* && \
    ln -s /root/.config /config && \
    # Remove the backup directory that gcloud creates
    rm -rf /root/tools/google-cloud-sdk/.install/.backup

# Path configuration
ENV PATH $PATH:/root/tools/google-cloud-sdk/bin
# Make sure gsutil will use the default service account
RUN echo '[GoogleCompute]\nservice_account = default' > /etc/boto.cfg

# Copies the trainer code 
RUN mkdir /root/trainer
COPY trainer/mnist.py /root/trainer/mnist.py

# Sets up the entry point to invoke the trainer.
ENTRYPOINT ["python", "trainer/mnist.py"]

Crea e testa l'immagine Docker localmente

Crea l'URI dell'immagine corretto utilizzando le variabili di ambiente e crea l'immagine Docker. Il flag -t nomina e tagga l'immagine con le tue scelte per IMAGE_REPO_NAME e IMAGE_TAG. Puoi scegliere un nome e un tag diversi per l'immagine.

export PROJECT_ID=$(gcloud config list project --format "value(core.project)")
export IMAGE_REPO_NAME=mnist_pytorch_custom_container
export IMAGE_TAG=mnist_pytorch_cpu
export IMAGE_URI=gcr.io/$PROJECT_ID/$IMAGE_REPO_NAME:$IMAGE_TAG

docker build -f Dockerfile -t $IMAGE_URI ./

Verifica l'immagine eseguendola localmente in un nuovo contenitore. Tieni presente che il flag --epochs viene passato allo script del trainer.
```
docker run $IMAGE_URI --epochs 1
```

Esegui il push dell'immagine in Container Registry

Se l'esecuzione locale funziona, puoi eseguire il push dell'immagine Docker in Container Registry nel tuo progetto.

Innanzitutto, esegui gcloud auth configure-docker, se non l'hai già fatto.

docker push $IMAGE_URI

Invia e monitora il job

Definisci le variabili di ambiente per la richiesta di job.
- MODEL_DIR indica il nome di una nuova directory con timestamp all'interno del bucket Cloud Storage in cui viene archiviato il file del modello salvato al termine dell'addestramento.
- REGION specifica una regione valida per l'addestramento di AI Platform Training.
```
export MODEL_DIR=pytorch_model_$(date +%Y%m%d_%H%M%S)
export REGION=us-central1
export JOB_NAME=custom_container_job_$(date +%Y%m%d_%H%M%S)
```

Invia il job di addestramento ad AI Platform Training utilizzando gcloud CLI. Passa l'URI all'immagine Docker utilizzando il flag --master-image-uri:

gcloud ai-platform jobs submit training $JOB_NAME \
  --region $REGION \
  --master-image-uri $IMAGE_URI \
  -- \
  --model-dir=gs://$BUCKET_NAME/$MODEL_DIR \
  --epochs=10

Dopo aver inviato il job, puoi monitorarne lo stato e gli stream di log:

gcloud ai-platform jobs describe $JOB_NAME
gcloud ai-platform jobs stream-logs $JOB_NAME

Invio di un job di ottimizzazione degli iperparametri

Per un job di ottimizzazione degli iperparametri sono necessarie alcune modifiche. Prendi nota di queste aree nel codice di esempio:

Il Dockerfile di esempio include il pacchetto cloudml-hypertune per installarlo nel container personalizzato.
Il codice di esempio (mnist.py):
- Utilizza cloudml-hypertune per registrare i risultati di ogni prova chiamando la sua funzione di supporto, report_hyperparameter_tuning_metric. Il codice di esempio riporta i risultati dell'ottimizzazione degli iperparametri dopo la valutazione, a meno che il job non venga inviato come job di ottimizzazione degli iperparametri.
- Aggiunge gli argomenti della riga di comando per ogni iperparametro e gestisce l'analisi degli argomenti con argparse.
La richiesta di job include HyperparameterSpec nell'oggetto TrainingInput. In questo caso, ottimizziamo --lr e --momentum per ridurre al minimo la perdita del modello.

Crea un file config.yaml per definire le specifiche degli iperparametri. Redefinisci MODEL_DIR e JOB_NAME. Definisci REGION, se non l'hai ancora fatto:

export MODEL_DIR=pytorch_hptuning_model_$(date +%Y%m%d_%H%M%S)
export REGION=us-central1
export JOB_NAME=custom_container_job_hptuning_$(date +%Y%m%d_%H%M%S)

# Creates a YAML file with job request.
cat > config.yaml <<EOF
trainingInput:
  hyperparameters:
    goal: MINIMIZE
    hyperparameterMetricTag: "my_loss"
    maxTrials: 20
    maxParallelTrials: 5
    enableTrialEarlyStopping: True
    params:
    - parameterName: lr
      type: DOUBLE
      minValue: 0.0001
      maxValue: 0.1
    - parameterName: momentum
      type: DOUBLE
      minValue: 0.2
      maxValue: 0.8
EOF

Invia il job di ottimizzazione degli iperparametri ad AI Platform Training:

gcloud ai-platform jobs submit training $JOB_NAME \
  --scale-tier BASIC \
  --region $REGION \
  --master-image-uri $IMAGE_URI \
  --config config.yaml \
  -- \
  --epochs=5 \
  --model-dir="gs://$BUCKET_NAME/$MODEL_DIR"

Utilizzo delle GPU con container personalizzati

Per inviare un job di container personalizzato utilizzando le GPU, devi creare un'immagine Docker diversa da quella utilizzata in precedenza. Abbiamo fornito un Dockerfile di esempio per l'utilizzo con le GPU che soddisfa i seguenti requisiti:

Preinstalla CUDA Toolkit e cuDNN nel contenitore. L'utilizzo dell'immagine nvidia/cuda come immagine di base è il modo consigliato per gestire questo problema, in quanto include il toolkit CUDA e cuDNN preinstallati e ti aiuta a configurare correttamente le variabili di ambiente correlate.
Installa dipendenze aggiuntive, ad esempio wget, curl, pip e altre ancora, necessarie per la tua applicazione di formazione.

# Copyright 2019 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the \"License\");
# you may not use this file except in compliance with the License.\n",
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an \"AS IS\" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# Dockerfile-gpu
FROM nvidia/cuda:9.0-cudnn7-runtime

# Installs necessary dependencies.
RUN apt-get update && apt-get install -y --no-install-recommends \
         wget \
         curl \
         python-dev && \
     rm -rf /var/lib/apt/lists/*

# Installs pip.
RUN curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py && \
    python get-pip.py && \
    pip install setuptools && \
    rm get-pip.py

WORKDIR /root

# Installs pytorch and torchvision.
RUN pip install torch==1.0.0 torchvision==0.2.1

# Installs cloudml-hypertune for hyperparameter tuning.
# It’s not needed if you don’t want to do hyperparameter tuning.
RUN pip install cloudml-hypertune

# Installs google cloud sdk, this is mostly for using gsutil to export model.
RUN wget -nv \
    https://dl.google.com/dl/cloudsdk/release/google-cloud-sdk.tar.gz && \
    mkdir /root/tools && \
    tar xvzf google-cloud-sdk.tar.gz -C /root/tools && \
    rm google-cloud-sdk.tar.gz && \
    /root/tools/google-cloud-sdk/install.sh --usage-reporting=false \
        --path-update=false --bash-completion=false \
        --disable-installation-options && \
    rm -rf /root/.config/* && \
    ln -s /root/.config /config && \
    # Remove the backup directory that gcloud creates
    rm -rf /root/tools/google-cloud-sdk/.install/.backup

# Path configuration
ENV PATH $PATH:/root/tools/google-cloud-sdk/bin
# Make sure gsutil will use the default service account
RUN echo '[GoogleCompute]\nservice_account = default' > /etc/boto.cfg

# Copies the trainer code 
RUN mkdir /root/trainer
COPY trainer/mnist.py /root/trainer/mnist.py

# Sets up the entry point to invoke the trainer.
ENTRYPOINT ["python", "trainer/mnist.py"]

Crea e testa l'immagine Docker GPU localmente

Crea una nuova immagine per il tuo job di addestramento GPU utilizzando il Dockerfile GPU. Per evitare di eseguire l'override dell'immagine della CPU, devi ridefinire IMAGE_REPO_NAME e IMAGE_TAG con nomi diversi da quelli utilizzati in precedenza nel tutorial.

export PROJECT_ID=$(gcloud config list project --format "value(core.project)")
export IMAGE_REPO_NAME=mnist_pytorch_gpu_container
export IMAGE_TAG=mnist_pytorch_gpu
export IMAGE_URI=gcr.io/$PROJECT_ID/$IMAGE_REPO_NAME:$IMAGE_TAG

docker build -f Dockerfile-gpu -t $IMAGE_URI ./

Se hai GPU disponibili sulla tua macchina e hai installato nvidia-docker, puoi verificare l'immagine eseguendola in locale:
```
docker run --runtime=nvidia $IMAGE_URI --epochs 1
```
Esegui il push dell'immagine Docker in Container Registry. Innanzitutto, esegui gcloud auth configure-docker, se non l'hai già fatto.
```
docker push $IMAGE_URI
```

Invia il job

Questo esempio utilizza il livello di scalabilità GPU di base per inviare la richiesta di job di addestramento. Consulta le altre opzioni di macchine per l'addestramento con GPU.

Ridefinisci MODEL_DIR e JOB_NAME. Definisci REGION se non l'hai ancora fatto:

export MODEL_DIR=pytorch_model_gpu_$(date +%Y%m%d_%H%M%S)
export REGION=us-central1
export JOB_NAME=custom_container_job_gpu_$(date +%Y%m%d_%H%M%S)

Invia il job di addestramento ad AI Platform Training utilizzando gcloud CLI. Passa l'URI all'immagine Docker utilizzando il flag --master-image-uri.

gcloud ai-platform jobs submit training $JOB_NAME \
  --scale-tier BASIC_GPU \
  --region $REGION \
  --master-image-uri $IMAGE_URI \
  -- \
  --epochs=5 \
  --model-dir=gs://$BUCKET_NAME/$MODEL_DIR

Passaggi successivi

Scopri di più su concetti relativi all'utilizzo dei container.
Scopri di più sull'addestramento distribuito con container personalizzati.