Questa pagina è stata tradotta dall'API Cloud Translation.

Gestire un modello con una singola GPU in GKE

Autopilot Standard

Questo tutorial mostra come eseguire il deployment e il servizio di un modello linguistico di grandi dimensioni (LLM) utilizzando GPU su Google Kubernetes Engine (GKE) con NVIDIA Triton Inference Server e TensorFlow Serving. Fornisce una base per comprendere ed esplorare il deployment pratico di LLM per l'inferenza in un ambiente Kubernetes gestito. Esegui il deployment di un contenuto precompilato in un cluster GKE con una singola GPU L4 Tensor Core e prepara l'infrastruttura GKE per l'inferenza online.

Questo tutorial è rivolto a tecnici del machine learning (ML), gestori e operatori della piattaforma e a specialisti di dati e AI che vogliono ospitare un modello di machine learning (ML) preaddestrato su un cluster GKE. Per scoprire di più sui ruoli comuni e sulle attività di esempio a cui si fa riferimento nei Google Cloud contenuti, consulta Ruoli e attività utente comuni di GKE Enterprise.

Prima di leggere questa pagina, assicurati di conoscere quanto segue:

Obiettivi

Crea un cluster GKE Autopilot o standard.
Configura un bucket Cloud Storage in cui risiede il modello pre-addestrato.
Esegui il deployment del framework di inferenza online selezionato.
Invia una richiesta di test al servizio di cui è stato eseguito il deployment.

Costi

Questo tutorial utilizza i seguenti componenti fatturabili di Google Cloud:

GKE
Cloud Storage
Acceleratori GPU L4
Traffico in uscita

Utilizza il Calcolatore prezzi per generare una stima dei costi in base all'utilizzo previsto.

Al termine di questo tutorial, puoi evitare la fatturazione continua eliminando le risorse che hai creato. Per ulteriori informazioni, vedi Pulizia.

Prima di iniziare

Configura il progetto

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, click Create project to begin creating a new Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the GKE API.

Enable the API

In the Google Cloud console, on the project selector page, click Create project to begin creating a new Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the GKE API.

Enable the API

Impostare i valori predefiniti per Google Cloud CLI

Nella console Google Cloud, avvia un'istanza Cloud Shell:
Apri Cloud Shell

Scarica il codice sorgente di questa app di esempio:

git clone https://github.com/GoogleCloudPlatform/kubernetes-engine-samples
cd kubernetes-engine-samples/ai-ml/gke-online-serving-single-gpu

Imposta le variabili di ambiente predefinite:
```
gcloud config set project PROJECT_ID
gcloud config set compute/region COMPUTE_REGION
```
Sostituisci i seguenti valori:
- PROJECT_ID: il tuo Google Cloud ID progetto.
- COMPUTE_REGION: la regione Compute Engine che supporta il tipo di acceleratore che vuoi utilizzare, ad esempio us-central1 per la GPU L4.

In Cloud Shell, crea le seguenti variabili di ambiente:

export PROJECT_ID=$(gcloud config get project)
export REGION=$(gcloud config get compute/region)
export K8S_SA_NAME=gpu-k8s-sa
export GSBUCKET=$PROJECT_ID-gke-bucket
export MODEL_NAME=mnist
export CLUSTER_NAME=online-serving-cluster

Crea un cluster GKE

Puoi pubblicare modelli su una singola GPU in un cluster GKE Autopilot o Standard. Ti consigliamo di utilizzare un cluster Autopilot per un'esperienza Kubernetes completamente gestita. Con GKE Autopilot le risorse vengono scalate automaticamente in base alle richieste del modello.

Per scegliere la modalità operativa di GKE più adatta ai tuoi carichi di lavoro, consulta Scegliere una modalità operativa GKE.

Autopilot

Esegui il seguente comando per creare un cluster GKE Autopilot:

  gcloud container clusters create-auto ${CLUSTER_NAME} \
      --region=${REGION} \
      --project=${PROJECT_ID} \
      --release-channel=rapid

GKE crea un cluster Autopilot con nodi CPU e GPU come richiesto dai carichi di lavoro di cui è stato eseguito il deployment.

Standard

Esegui il seguente comando per creare un cluster GKE Standard:

  gcloud container clusters create ${CLUSTER_NAME} \
    --project=${PROJECT_ID}  \
    --region=${REGION}  \
    --workload-pool=${PROJECT_ID}.svc.id.goog \
    --addons GcsFuseCsiDriver \
    --release-channel=rapid \
    --num-nodes=1

La creazione del cluster potrebbe richiedere diversi minuti.

Esegui il comando seguente per creare il pool di nodi:

  gcloud container node-pools create gpupool \
    --accelerator type=nvidia-l4,count=1,gpu-driver-version=latest \
    --project=${PROJECT_ID} \
    --location=${REGION} \
    --node-locations=${REGION}-a \
    --cluster=${CLUSTER_NAME} \
    --machine-type=g2-standard-8 \
    --num-nodes=1

GKE crea un singolo pool di nodi contenente una GPU L4 per ogni nodo.

Crea un bucket Cloud Storage

Crea un bucket Cloud Storage per archiviare il modello preaddestrato che verrà pubblicato.

In Cloud Shell, esegui quanto segue:

gcloud storage buckets create gs://$GSBUCKET

Configura il cluster in modo che acceda al bucket utilizzando la federazione delle identità per i carichi di lavoro per GKE

Per consentire al cluster di accedere al bucket Cloud Storage, svolgi i seguenti passaggi:

Crea un Google Cloud account di servizio.
Crea un account utente Kubernetes nel cluster.
Associa il service account Kubernetes all' Google Cloud account di servizio.

Crea un Google Cloud account di servizio

Nella console Google Cloud, vai alla pagina Crea account di servizio:

Vai a Crea account di servizio
Nel campo ID account di servizio, inserisci gke-ai-sa.
Fai clic su Crea e continua.
Nell'elenco Ruolo, seleziona il ruolo Cloud Storage > Servizio di raccolta di Storage Insights.
Fai clic su Aggiungi un altro ruolo.
Nell'elenco Seleziona un ruolo, seleziona il ruolo Cloud Storage > Storage Object Admin.
Fai clic su Continua, quindi su Fine.

Crea un account utente Kubernetes nel cluster

In Cloud Shell:

Crea uno spazio dei nomi Kubernetes:

kubectl create namespace gke-ai-namespace

Crea un account di servizio Kubernetes nello spazio dei nomi:

kubectl create serviceaccount gpu-k8s-sa --namespace=gke-ai-namespace

Associa l'account di servizio Kubernetes all' Google Cloud account di servizio

In Cloud Shell, esegui i seguenti comandi:

Aggiungi una associazione IAM all' Google Cloud account di servizio:

gcloud iam service-accounts add-iam-policy-binding gke-ai-sa@PROJECT_ID.iam.gserviceaccount.com \
    --role roles/iam.workloadIdentityUser \
    --member "serviceAccount:PROJECT_ID.svc.id.goog[gke-ai-namespace/gpu-k8s-sa]"

Il flag --member fornisce l'identità completa dell'account di servizio Kubernetes in Google Cloud.

Aggiungi un'annotazione all'account di servizio Kubernetes:

kubectl annotate serviceaccount gpu-k8s-sa \
    --namespace gke-ai-namespace \
    iam.gke.io/gcp-service-account=gke-ai-sa@PROJECT_ID.iam.gserviceaccount.com

Esegui il deployment del server di inferenza online

Ogni framework di inferenza online si aspetta di trovare il modello ML preaddestrato in un formato specifico. La sezione seguente mostra come eseguire il deployment del server di inferenza a seconda del framework che vuoi utilizzare:

Triton

In Cloud Shell, copia il modello ML preaddestrato nel bucket Cloud Storage:

gcloud storage cp src/triton-model-repository gs://$GSBUCKET --recursive

Esegui il deployment del framework utilizzando un deployment. Un deployment è un oggetto dell'API Kubernetes che ti consente di eseguire più repliche di pod distribuite tra i nodi di un cluster:
```
envsubst < src/gke-config/deployment-triton.yaml | kubectl --namespace=gke-ai-namespace apply -f -
```

Verifica che GKE abbia eseguito il deployment del framework:

kubectl get deployments --namespace=gke-ai-namespace

Quando il framework è pronto, l'output è simile al seguente:

NAME                 READY   UP-TO-DATE   AVAILABLE   AGE
triton-deployment    1/1     1            1           5m29s

Esegui il deployment dei servizi per accedere al deployment:

kubectl apply --namespace=gke-ai-namespace -f src/gke-config/service-triton.yaml

Verifica che l'IP esterno sia assegnato:

kubectl get services --namespace=gke-ai-namespace

L'output è simile al seguente:

NAME            TYPE           CLUSTER-IP       EXTERNAL-IP     PORT(S)                                        AGE
kubernetes      ClusterIP      34.118.224.1     <none>          443/TCP                                        60m
triton-server   LoadBalancer   34.118.227.176   35.239.54.228   8000:30866/TCP,8001:31035/TCP,8002:30516/TCP   5m14s

Prendi nota dell'indirizzo IP di triton-server nella colonna EXTERNAL-IP.

Verifica che il servizio e il deployment funzionino correttamente:

curl -v EXTERNAL_IP:8000/v2/health/ready

L'output è simile al seguente:

...
< HTTP/1.1 200 OK
< Content-Length: 0
< Content-Type: text/plain
...

TF Serving

In Cloud Shell, copia il modello ML preaddestrato nel bucket Cloud Storage:

gcloud storage cp src/tfserve-model-repository gs://$GSBUCKET --recursive

Esegui il deployment del framework utilizzando un deployment. Un deployment è un oggetto dell'API Kubernetes che ti consente di eseguire più repliche di pod distribuite tra i nodi di un cluster:
```
envsubst < src/gke-config/deployment-tfserve.yaml | kubectl --namespace=gke-ai-namespace apply -f -
```

Verifica che GKE abbia eseguito il deployment del framework:

kubectl get deployments --namespace=gke-ai-namespace

Quando il framework è pronto, l'output è simile al seguente:

NAME                 READY   UP-TO-DATE   AVAILABLE   AGE
tfserve-deployment   1/1     1            1           5m29s

Esegui il deployment dei servizi per accedere al deployment:

kubectl apply --namespace=gke-ai-namespace -f src/gke-config/service-tfserve.yaml

Verifica che l'IP esterno sia assegnato:

kubectl get services --namespace=gke-ai-namespace

L'output è simile al seguente:

NAME            TYPE           CLUSTER-IP       EXTERNAL-IP     PORT(S)                                        AGE
kubernetes      ClusterIP      34.118.224.1     <none>          443/TCP                                        60m
tfserve-server  LoadBalancer   34.118.227.176   35.239.54.228   8500:30003/TCP,8000:32194/TCP                  5m14s

Prendi nota dell'indirizzo IP per tfserve-server nella colonna EXTERNAL-IP.

Verifica che il servizio e il deployment funzionino correttamente:

curl -v EXTERNAL_IP:8000/v1/models/mnist

Sostituisci EXTERNAL_IP con il tuo indirizzo IP esterno.

L'output è simile al seguente:

...
< HTTP/1.1 200 OK
< Content-Type: application/json
< Date: Thu, 12 Oct 2023 19:01:19 GMT
< Content-Length: 154
<
{
  "model_version_status": [
        {
        "version": "1",
        "state": "AVAILABLE",
        "status": {
          "error_code": "OK",
          "error_message": ""
        }
      }
    ]
}

Pubblica il modello

Triton

Crea un ambiente virtuale Python in Cloud Shell.

python -m venv ./mnist_client
source ./mnist_client/bin/activate

Installa i pacchetti Python richiesti.

pip install -r src/client/triton-requirements.txt

Testa Triton Inference Server caricando un'immagine:
```
cd src/client
python triton_mnist_client.py -i EXTERNAL_IP -m mnist -p ./images/TEST_IMAGE.png
```
Sostituisci quanto segue:
- EXTERNAL_IP: il tuo indirizzo IP esterno.
- TEST_IMAGE: il nome del file corrispondente all'immagine che vuoi testare. Puoi utilizzare le immagini archiviate in src/client/images.
A seconda dell'immagine utilizzata, l'output è simile al seguente:
```
Calling Triton HTTP Service      ->      Prediction result: 7
```

TF Serving

Crea un ambiente virtuale Python in Cloud Shell.

python -m venv ./mnist_client
source ./mnist_client/bin/activate

Installa i pacchetti Python richiesti.

pip install -r src/client/tfserve-requirements.txt

Testa TensorFlow Serving con alcune immagini.

cd src/client
python tfserve_mnist_client.py -i EXTERNAL_IP -m mnist -p ./images/TEST_IMAGE.png

Sostituisci quanto segue:

EXTERNAL_IP: il tuo indirizzo IP esterno.
TEST_IMAGE: un valore compreso tra 0 e 9. Puoi utilizzare le immagini archiviate in src/client/images.

A seconda dell'immagine utilizzata, otterrai un output simile al seguente:

  Calling TensorFlow Serve HTTP Service    ->      Prediction result: 5

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse che hai creato in questa guida, esegui una delle seguenti operazioni:

Mantieni il cluster GKE: elimina le risorse Kubernetes nel cluster e le risorse Google Cloud
Mantieni il Google Cloud progetto: elimina il cluster GKE e le risorse Google Cloud
Eliminare il progetto

Elimina le risorse Kubernetes nel cluster e le risorse Google Cloud

Elimina lo spazio dei nomi Kubernetes e i carichi di lavoro di cui hai eseguito il deployment:

Triton

kubectl -n gke-ai-namespace delete -f src/gke-config/service-triton.yaml
kubectl -n gke-ai-namespace delete -f src/gke-config/deployment-triton.yaml
kubectl delete namespace gke-ai-namespace

TF Serving

kubectl -n gke-ai-namespace delete -f src/gke-config/service-tfserve.yaml
kubectl -n gke-ai-namespace delete -f src/gke-config/deployment-tfserve.yaml
kubectl delete namespace gke-ai-namespace

Elimina il bucket Cloud Storage:
1. Vai alla pagina Bucket:
  
  Vai a Bucket
2. Seleziona la casella di controllo perPROJECT_ID-gke-bucket.
3. Fai clic su Elimina.
4. Per confermare l'eliminazione, digita DELETE e fai clic su Elimina.
Elimina l' Google Cloud account di servizio:
1. Vai alla pagina Account di servizio:
  
  Vai ad Account di servizio
2. Seleziona il progetto.
3. Seleziona la casella di controllo pergke-gpu-sa@PROJECT_ID.iam.gserviceaccount.com.
4. Fai clic su Elimina.
5. Per confermare l'eliminazione, fai clic su Elimina.

Elimina il cluster GKE e le Google Cloud risorse

Elimina il cluster GKE:
1. Vai alla pagina Cluster:
  
  Vai a Cluster
2. Seleziona la casella di controllo per online-serving-cluster.
3. Fai clic su Elimina.
4. Per confermare l'eliminazione, digita online-serving-cluster e fai clic su Elimina.
Elimina il bucket Cloud Storage:
1. Vai alla pagina Bucket:
  
  Vai a Bucket
2. Seleziona la casella di controllo perPROJECT_ID-gke-bucket.
3. Fai clic su Elimina.
4. Per confermare l'eliminazione, digita DELETE e fai clic su Elimina.
Elimina l' Google Cloud account di servizio:
1. Vai alla pagina Account di servizio:
  
  Vai ad Account di servizio
2. Seleziona il progetto.
3. Seleziona la casella di controllo pergke-gpu-sa@PROJECT_ID.iam.gserviceaccount.com.
4. Fai clic su Elimina.
5. Per confermare l'eliminazione, fai clic su Elimina.

Elimina il progetto

Attenzione: l'eliminazione di un progetto ha i seguenti effetti:

L'intero contenuto del progetto viene eliminato. Se hai utilizzato un progetto esistente per le attività descritte in questo documento, quando lo elimini elimini anche tutto il lavoro svolto nel progetto.
Gli ID progetto personalizzati non sono più disponibili. Quando hai creato questo progetto, potresti aver creato un ID progetto personalizzato che vuoi utilizzare in futuro. Per conservare gli URL che utilizzano l'ID progetto, ad esempio un URL appspot.com, elimina le risorse selezionate all'interno del progetto anziché eliminare l'intero progetto.

Se intendi esplorare più architetture, tutorial o guide rapide, il riuso dei progetti può aiutarti a non superare i limiti di quota.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Gestire un modello con una singola GPU in GKE

Obiettivi

Costi

Prima di iniziare

Configura il progetto

Impostare i valori predefiniti per Google Cloud CLI

Crea un cluster GKE

Autopilot

Standard

Crea un bucket Cloud Storage

Configura il cluster in modo che acceda al bucket utilizzando la federazione delle identità per i carichi di lavoro per GKE

Crea un Google Cloud account di servizio

Crea un account utente Kubernetes nel cluster

Associa l'account di servizio Kubernetes all' Google Cloud account di servizio

Esegui il deployment del server di inferenza online

Triton

TF Serving

Pubblica il modello

Triton

TF Serving

Esegui la pulizia

Elimina le risorse Kubernetes nel cluster e le risorse Google Cloud

Triton

TF Serving

Elimina il cluster GKE e le Google Cloud risorse

Elimina il progetto

Passaggi successivi