Questa pagina è stata tradotta dall'API Cloud Translation.

Gestisci LLM aperti su GKE con un'architettura preconfigurata

Autopilot Standard

Questa pagina mostra come eseguire rapidamente il deployment e l'hosting di modelli linguistici di grandi dimensioni (LLM) open source popolari su GKE per l'inferenza utilizzando un'architettura di riferimento preconfigurata e pronta per la produzione. Questo approccio utilizza Infrastructure as Code (IaC), con Terraform incluso negli script CLI, per creare un ambiente GKE standardizzato, sicuro e scalabile progettato per i carichi di lavoro di inferenza AI.

In questa guida, esegui il deployment e la gestione di LLM utilizzando nodi GPU a host singolo su GKE con il framework di gestione vLLM. Questa guida fornisce istruzioni e configurazioni per il deployment dei seguenti modelli aperti:

Questa guida è rivolta a machine learning engineer e specialisti di dati e AI interessati a esplorare le funzionalità di orchestrazione dei container Kubernetes per la gestione di modelli aperti per l'inferenza. Per scoprire di più sui ruoli comuni e sulle attività di esempio a cui si fa riferimento nei contenuti di Google Cloud , consulta Ruoli utente e attività comuni di GKE.

Prima di iniziare

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the required APIs.
Enable the APIs

Make sure that you have the following role or roles on the project: roles/artifactregistry.admin, roles/browser, roles/compute.networkAdmin, roles/container.clusterAdmin, roles/iam.serviceAccountAdmin, roles/resourcemanager.projectIamAdmin, and roles/serviceusage.serviceUsageAdmin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  Vai a IAM
2. Seleziona il progetto.
3. Fai clic su Concedi l'accesso.
4. Nel campo Nuove entità, inserisci il tuo identificatore dell'utente. In genere, si tratta dell'identificatore di un utente in un pool di identità della forza lavoro. Per maggiori dettagli, vedi Rappresenta gli utenti del pool di forza lavoro nelle policy IAM o contatta l'amministratore.
5. Nell'elenco Seleziona un ruolo, seleziona un ruolo.
6. Per concedere altri ruoli, fai clic su Aggiungi un altro ruolo e aggiungi ogni ruolo aggiuntivo.
7. Fai clic su Salva.

Gestisci LLM aperti su GKE con un'architettura preconfigurata

Prima di iniziare

Check for the roles

Grant the roles

Ottenere l'accesso al modello

Esegui il provisioning dell'ambiente di inferenza GKE

Avvia Cloud Shell

Esegui il deployment dell'architettura di base

Autopilot

Standard

Esegui il deployment di un modello aperto

Gemma 3 27B-it

Llama 4 Scout 17B-16E-Instruct

Qwen3 32B

gpt-oss 20B

Testare il deployment

Esegui la pulizia

Autopilot

Standard

Passaggi successivi

Gestisci LLM aperti su GKE con un'architettura preconfigurata Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Prima di iniziare

Check for the roles

Grant the roles

Ottenere l'accesso al modello

Esegui il provisioning dell'ambiente di inferenza GKE

Avvia Cloud Shell

Esegui il deployment dell'architettura di base

Autopilot

Standard

Esegui il deployment di un modello aperto

Gemma 3 27B-it

Llama 4 Scout 17B-16E-Instruct

Qwen3 32B

gpt-oss 20B

Testare il deployment

Esegui la pulizia

Autopilot

Standard

Passaggi successivi

Gestisci LLM aperti su GKE con un'architettura preconfigurata