Addestra un modello con GPU in modalità GKE Standard
Questo tutorial introduttivo mostra come eseguire il deployment di un modello di addestramento con GPU in Google Kubernetes Engine (GKE) e archiviare le previsioni in Cloud Storage. Questo tutorial utilizza un modello TensorFlow e cluster GKE Standard. Puoi anche eseguire questi carichi di lavoro sui cluster Autopilot con meno passaggi di configurazione. Per istruzioni, consulta Addestrare un modello con GPU in modalità GKE Autopilot.
Questo documento è rivolto agli amministratori di GKE che dispongono di cluster standard esistenti e vogliono eseguire per la prima volta workload GPU.
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Kubernetes Engine and Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Kubernetes Engine and Cloud Storage APIs.
-
In the Google Cloud console, activate Cloud Shell.
At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.
Clona il repository di esempio
In Cloud Shell, esegui questo comando:
git clone https://github.com/GoogleCloudPlatform/ai-on-gke/ ai-on-gke
cd ai-on-gke/tutorials-and-examples/gpu-examples/training-single-gpu
Crea un cluster in modalità standard e un pool di nodi GPU
Utilizza Cloud Shell per:
Crea un cluster standard che utilizzi Workload Identity Federation for GKE e installa il driver Cloud Storage FUSE:
gcloud container clusters create gke-gpu-cluster \ --addons GcsFuseCsiDriver \ --location=us-central1 \ --num-nodes=1 \ --workload-pool=PROJECT_ID.svc.id.goog
Sostituisci
PROJECT_ID
con il tuo ID progetto Google Cloud.La creazione del cluster potrebbe richiedere diversi minuti.
Crea un pool di nodi GPU:
gcloud container node-pools create gke-gpu-pool-1 \ --accelerator=type=nvidia-tesla-t4,count=1,gpu-driver-version=default \ --machine-type=n1-standard-16 --num-nodes=1 \ --location=us-central1 \ --cluster=gke-gpu-cluster
Crea un bucket Cloud Storage
Nella console Google Cloud, vai alla pagina Crea un bucket:
Nel campo Assegna un nome al bucket, inserisci il seguente nome:
PROJECT_ID-gke-gpu-bucket
Fai clic su Continua.
Per Tipo di località, seleziona Regione.
Nell'elenco Regione, seleziona
us-central1 (Iowa)
e fai clic su Continua.Nella sezione Scegli una classe di archiviazione per i tuoi dati, fai clic su Continua.
Nella sezione Scegli come controllare l'accesso agli oggetti, seleziona Uniforme in Controllo dell'accesso.
Fai clic su Crea.
Nella finestra di dialogo L'accesso pubblico verrà vietato, assicurati che la casella di controllo Applica la prevenzione dell'accesso pubblico in questo bucket sia selezionata e fai clic su Conferma.
Configura il cluster in modo che acceda al bucket utilizzando la federazione delle identità per i carichi di lavoro per GKE
Per consentire al cluster di accedere al bucket Cloud Storage, svolgi i seguenti passaggi:
- Crea un account di servizio Google Cloud.
- Crea un account utente Kubernetes nel cluster.
- Associa l'account di servizio Kubernetes all'account di servizio Google Cloud.
Creare un account di servizio Google Cloud
Nella console Google Cloud, vai alla pagina Crea account di servizio:
Nel campo ID account di servizio, inserisci
gke-ai-sa
.Fai clic su Crea e continua.
Nell'elenco Ruolo, seleziona il ruolo Cloud Storage > Servizio di raccolta di Storage Insights.
Fai clic su
Aggiungi un altro ruolo.Nell'elenco Seleziona un ruolo, seleziona il ruolo Cloud Storage > Amministratore oggetti Storage.
Fai clic su Continua e poi su Fine.
Crea un account utente Kubernetes nel cluster
In Cloud Shell:
Crea uno spazio dei nomi Kubernetes:
kubectl create namespace gke-ai-namespace
Crea un account di servizio Kubernetes nello spazio dei nomi:
kubectl create serviceaccount gpu-k8s-sa --namespace=gke-ai-namespace
Associa l'account di servizio Kubernetes all'account di servizio Google Cloud
In Cloud Shell, esegui i seguenti comandi:
Aggiungi un'associazione IAM all'account di servizio Google Cloud:
gcloud iam service-accounts add-iam-policy-binding gke-ai-sa@PROJECT_ID.iam.gserviceaccount.com \ --role roles/iam.workloadIdentityUser \ --member "serviceAccount:PROJECT_ID.svc.id.goog[gke-ai-namespace/gpu-k8s-sa]"
Il flag
--member
fornisce l'identità completa dell'account di servizio Kubernetes in Google Cloud.Aggiungi un'annotazione all'account di servizio Kubernetes:
kubectl annotate serviceaccount gpu-k8s-sa \ --namespace gke-ai-namespace \ iam.gke.io/gcp-service-account=gke-ai-sa@PROJECT_ID.iam.gserviceaccount.com
Verifica che i pod possano accedere al bucket Cloud Storage
In Cloud Shell, crea le seguenti variabili di ambiente:
export K8S_SA_NAME=gpu-k8s-sa export BUCKET_NAME=PROJECT_ID-gke-gpu-bucket
Sostituisci
PROJECT_ID
con il tuo ID progetto Google Cloud.Crea un pod con un container TensorFlow:
envsubst < src/gke-config/standard-tensorflow-bash.yaml | kubectl --namespace=gke-ai-namespace apply -f -
Questo comando sostituisce le variabili di ambiente che hai creato nei riferimenti corrispondenti nel file manifest. Puoi anche aprire il file manifest in un editor di testo e sostituire
$K8S_SA_NAME
e$BUCKET_NAME
con i valori corrispondenti.Crea un file di esempio nel bucket:
touch sample-file gcloud storage cp sample-file gs://PROJECT_ID-gke-gpu-bucket
Attendi che il pod sia pronto:
kubectl wait --for=condition=Ready pod/test-tensorflow-pod -n=gke-ai-namespace --timeout=180s
Quando il pod è pronto, l'output è il seguente:
pod/test-tensorflow-pod condition met
Apri una shell nel contenitore Tensorflow:
kubectl -n gke-ai-namespace exec --stdin --tty test-tensorflow-pod --container tensorflow -- /bin/bash
Prova a leggere il file di esempio che hai creato:
ls /data
L'output mostra il file di esempio.
Controlla i log per identificare la GPU collegata al pod:
python -c "import tensorflow as tf; print(tf.config.list_physical_devices('GPU'))"
L'output mostra la GPU collegata al pod, in modo simile al seguente:
... PhysicalDevice(name='/physical_device:GPU:0',device_type='GPU')
Esci dal contenitore:
exit
Elimina il pod di esempio:
kubectl delete -f src/gke-config/standard-tensorflow-bash.yaml \ --namespace=gke-ai-namespace
Addestra e fai previsioni utilizzando il set di dati MNIST
In questa sezione esegui un carico di lavoro di addestramento sul set di dati di esempio MNIST
.
Copia i dati di esempio nel bucket Cloud Storage:
gcloud storage cp src/tensorflow-mnist-example gs://PROJECT_ID-gke-gpu-bucket/ --recursive
Crea le seguenti variabili di ambiente:
export K8S_SA_NAME=gpu-k8s-sa export BUCKET_NAME=PROJECT_ID-gke-gpu-bucket
Esamina il job di addestramento:
Esegui il deployment del job di addestramento:
envsubst < src/gke-config/standard-tf-mnist-train.yaml | kubectl -n gke-ai-namespace apply -f -
Questo comando sostituisce le variabili di ambiente che hai creato nei riferimenti corrispondenti nel file manifest. Puoi anche aprire il file manifest in un editor di testo e sostituire
$K8S_SA_NAME
e$BUCKET_NAME
con i valori corrispondenti.Attendi che il job abbia lo stato
Completed
:kubectl wait -n gke-ai-namespace --for=condition=Complete job/mnist-training-job --timeout=180s
L'output è simile al seguente:
job.batch/mnist-training-job condition met
Controlla i log del contenitore Tensorflow:
kubectl logs -f jobs/mnist-training-job -c tensorflow -n gke-ai-namespace
L'output mostra che si verificano i seguenti eventi:
- Installa i pacchetti Python richiesti
- Scarica il set di dati MNIST
- Addestra il modello utilizzando una GPU
- Salva il modello
- Valuta il modello
... Epoch 12/12 927/938 [============================>.] - ETA: 0s - loss: 0.0188 - accuracy: 0.9954 Learning rate for epoch 12 is 9.999999747378752e-06 938/938 [==============================] - 5s 6ms/step - loss: 0.0187 - accuracy: 0.9954 - lr: 1.0000e-05 157/157 [==============================] - 1s 4ms/step - loss: 0.0424 - accuracy: 0.9861 Eval loss: 0.04236088693141937, Eval accuracy: 0.9861000180244446 Training finished. Model saved
Elimina il carico di lavoro di addestramento:
kubectl -n gke-ai-namespace delete -f src/gke-config/standard-tf-mnist-train.yaml
Esegui il deployment di un carico di lavoro di inferenza
In questa sezione, esegui il deployment di un carico di lavoro di inferenza che prende un set di dati di esempio come input e restituisce le previsioni.
Copia le immagini per la previsione nel bucket:
gcloud storage cp data/mnist_predict gs://PROJECT_ID-gke-gpu-bucket/ --recursive
Esamina il carico di lavoro di inferenza:
Esegui il deployment del carico di lavoro di inferenza:
envsubst < src/gke-config/standard-tf-mnist-batch-predict.yaml | kubectl -n gke-ai-namespace apply -f -
Questo comando sostituisce le variabili di ambiente che hai creato nei riferimenti corrispondenti nel file manifest. Puoi anche aprire il file manifest in un editor di testo e sostituire
$K8S_SA_NAME
e$BUCKET_NAME
con i valori corrispondenti.Attendi che il job abbia lo stato
Completed
:kubectl wait -n gke-ai-namespace --for=condition=Complete job/mnist-batch-prediction-job --timeout=180s
L'output è simile al seguente:
job.batch/mnist-batch-prediction-job condition met
Controlla i log del contenitore Tensorflow:
kubectl logs -f jobs/mnist-batch-prediction-job -c tensorflow -n gke-ai-namespace
L'output è la previsione per ogni immagine e l'affidabilità del modello nella previsione, simile al seguente:
Found 10 files belonging to 1 classes. 1/1 [==============================] - 2s 2s/step The image /data/mnist_predict/0.png is the number 0 with a 100.00 percent confidence. The image /data/mnist_predict/1.png is the number 1 with a 99.99 percent confidence. The image /data/mnist_predict/2.png is the number 2 with a 100.00 percent confidence. The image /data/mnist_predict/3.png is the number 3 with a 99.95 percent confidence. The image /data/mnist_predict/4.png is the number 4 with a 100.00 percent confidence. The image /data/mnist_predict/5.png is the number 5 with a 100.00 percent confidence. The image /data/mnist_predict/6.png is the number 6 with a 99.97 percent confidence. The image /data/mnist_predict/7.png is the number 7 with a 100.00 percent confidence. The image /data/mnist_predict/8.png is the number 8 with a 100.00 percent confidence. The image /data/mnist_predict/9.png is the number 9 with a 99.65 percent confidence.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse che hai creato in questa guida, svolgi una delle seguenti operazioni:
- Mantieni il cluster GKE: elimina le risorse Kubernetes nel cluster e le risorse Google Cloud
- Mantieni il progetto Google Cloud: elimina il cluster GKE e le risorse Google Cloud
- Eliminare il progetto
Elimina le risorse Kubernetes nel cluster e le risorse Google Cloud
Elimina lo spazio dei nomi Kubernetes e i carichi di lavoro di cui hai eseguito il deployment:
kubectl -n gke-ai-namespace delete -f src/gke-config/standard-tf-mnist-batch-predict.yaml kubectl delete namespace gke-ai-namespace
Elimina il bucket Cloud Storage:
Vai alla pagina Bucket:
Seleziona la casella di controllo per
PROJECT_ID-gke-gpu-bucket
.Fai clic su
Elimina.Per confermare l'eliminazione, digita
DELETE
e fai clic su Elimina.
Elimina l'account di servizio Google Cloud:
Vai alla pagina Account di servizio:
Seleziona il progetto.
Seleziona la casella di controllo per
gke-ai-sa@PROJECT_ID.iam.gserviceaccount.com
.Fai clic su
Elimina.Per confermare l'eliminazione, fai clic su Elimina.
Elimina il cluster GKE e le risorse Google Cloud
Elimina il cluster GKE:
Vai alla pagina Cluster:
Seleziona la casella di controllo per
gke-gpu-cluster
.Fai clic su
Elimina.Per confermare l'eliminazione, digita
gke-gpu-cluster
e fai clic su Elimina.
Elimina il bucket Cloud Storage:
Vai alla pagina Bucket:
Seleziona la casella di controllo per
PROJECT_ID-gke-gpu-bucket
.Fai clic su
Elimina.Per confermare l'eliminazione, digita
DELETE
e fai clic su Elimina.
Elimina l'account di servizio Google Cloud:
Vai alla pagina Account di servizio:
Seleziona il progetto.
Seleziona la casella di controllo per
gke-ai-sa@PROJECT_ID.iam.gserviceaccount.com
.Fai clic su
Elimina.Per confermare l'eliminazione, fai clic su Elimina.
Elimina il progetto
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.