Creare un'organizzazione Gemini

Questa pagina ti guida alla creazione di una nuova organizzazione in Google Distributed Cloud (GDC) air-gapped e alla configurazione di questa organizzazione per l'utilizzo di Gemini.

Questa pagina utilizza due termini che si riferiscono a concetti diversi: organizzazione cliente e organizzazione Gemini. Ogni termine è definito come segue:

  • Organizzazione del cliente: l'organizzazione GDC in cui gli utenti eseguono i propri carichi di lavoro, accedono all'infrastruttura della piattaforma e utilizzano i servizi Vertex AI. Per saperne di più sulle organizzazioni dei clienti, vedi Creare un'organizzazione cliente.
  • Organizzazione Gemini: la risorsa organizzazione configurata per eseguire un server di modelli Gemini. Per motivi di sicurezza, i carichi di lavoro degli utenti non sono autorizzati a essere eseguiti in questa organizzazione. Solo il codice di terze parti approvato da Google deve essere eseguito all'interno dell'organizzazione Gemini. L'organizzazione Gemini è un'organizzazione separata dall'organizzazione cliente che segue un modello multi-single tenancy, in cui ogni organizzazione cliente ha la propria organizzazione Gemini corrispondente.

Per ulteriori informazioni sulle differenze tra le organizzazioni, consulta la panoramica dell'operatore.

Prima di iniziare

Per creare un'organizzazione Gemini, devi disporre di quanto segue:

  • Un'organizzazione cliente operativa.
  • Un browser nel tuo sistema.
  • L'interfaccia a riga di comando (CLI) Git.
  • L'interfaccia a riga di comando kubectl.
  • gcloud CLI.
  • Gli strumenti a riga di comando jq e yq. Per informazioni dettagliate sulla configurazione del contenitore degli strumenti, che contiene jq e yq, consulta il runbook OOPS-P0065.
  • I ruoli Infrastructure Operator (IO) necessari. Per saperne di più su questi ruoli, consulta Preparare le autorizzazioni IAM.

Inoltre, assicurati di soddisfare i controlli pre-deployment.

Creare l'organizzazione Gemini

Per creare un'organizzazione Gemini:

  1. Segui la guida Crea un'organizzazione finché non completi il collegamento del provider di identità IO all'organizzazione con IAC. Questa azione crea un'organizzazione separata che funge da organizzazione Gemini in una singola zona. Segui queste linee guida durante la creazione dell'organizzazione:

    • Uno dei server disponibili deve essere un server Dell XE9680 con una classe di macchina d3-highgpu1-256-gdc-metal. Il primo passaggio delle istruzioni Crea un'organizzazione con IaC fornisce un comando per controllare i server disponibili. Se il server con classe macchina d3-highgpu1-256-gdc-metal non è disponibile, consulta la panoramica dell'espansione dinamica per esplorare le opzioni di espansione del server. Poi, aggiungi il nuovo server del carico di lavoro.

    • Quando crei un'organizzazione con IaC, dopo aver creato la risorsa personalizzata Organization, aggiungi l'annotazione organizations.resourcemanager.private.gdc.goog/shared-service-cluster-skip-create-cluster: "true" nella risorsa personalizzata per saltare la creazione di un cluster di servizi condivisi e ottimizzare le risorse.

    • Crea la risorsa personalizzata OrganizationZonalConfig in una singola zona. Questa zona viene utilizzata come zona Gemini. L'organizzazione del cliente deve trovarsi nella stessa zona, ma può essere implementata anche in più zone. Per saperne di più, consulta Modello di deployment multizona per Gemini.

  2. Aggiungi l'etichetta lcm.private.gdc.goog/org-tenant="gemini" alla risorsa personalizzata Organization dell'organizzazione Gemini:

    KUBECONFIG=ROOT_ADMIN_KUBECONFIG_PATH
    GEMINI_ORG_NAME=GEMINI_ORGANIZATION_NAME
    
    kubectl label organization -n gpc-system ${GEMINI_ORG_NAME:?} \
      lcm.private.gdc.goog/org-tenant="gemini" --kubeconfig ${KUBECONFIG:?}
    

    Sostituisci quanto segue:

    • ROOT_ADMIN_KUBECONFIG_PATH: il percorso del file kubeconfig del cluster di amministrazione principale.
    • GEMINI_ORGANIZATION_NAME: il nome dell'organizzazione Gemini.
  3. Controlla se il cluster dell'infrastruttura dell'organizzazione Gemini è attivo e in esecuzione:

    kubectl get cluster/${GEMINI_ORG_NAME:?}-admin -n ${GEMINI_ORG_NAME:?}
    

    L'output seguente mostra un esempio per un'organizzazione Gemini denominata org-1:

    NAMESPACE   NAME          ABM VERSION        DESIRED ABM VERSION   CLUSTER STATE
    org-1       org-1-admin   1.30.500-gke.128   1.30.500-gke.128      Running
    
  4. Trova tutti i nodi worker che hanno una GPU H200 configurata all'interno del cluster di infrastruttura dell'organizzazione Gemini:

    KUBECONFIG=GEM_ORG_CP_KUBECONFIG_PATH
    
    kubectl --kubeconfig ${KUBECONFIG:?} get nodes \
      -o json | jq -r \
      '.items[] | select(.status.capacity."nvidia.com/gpu-pod-NVIDIA_H200"=="8") | .metadata.name'
    

    Sostituisci GEM_ORG_CP_KUBECONFIG_PATH con il percorso del file kubeconfig del cluster di infrastruttura dell'organizzazione per l'organizzazione Gemini.

  5. Applica l'etichetta gemini.gdc.goog/large-gemini=true a tutti i nodi worker con GPU H200 che hai ottenuto dal comando precedente:

    NODE_NAME=H200_WORKER_NODE_NAME
    
    kubectl label node ${NODE_NAME:?} \
      "gemini.gdc.goog/large-gemini=true" \
      --kubeconfig ${KUBECONFIG:?}
    

    Sostituisci H200_WORKER_NODE_NAME con il nome del nodo di lavoro con una GPU H200.

Eseguire l'override dei gate di funzionalità per i componenti operabili di Gemini

Quando hai completato il provisioning dell'organizzazione Gemini e confermi che ha uno stato READY, devi eseguire l'override dei feature gate per attivare i componenti operativi nell'organizzazione Gemini o del cliente.

La seguente tabella riassume i runbook che devi seguire per ignorare i feature gate e attivare i componenti operativi:

Componente azionabile Organizzazione di destinazione Riferimento Runbook
GEMINI Organizzazione Gemini GEMINI-F0001
AICS Organizzazione cliente AICS-F0001
GPU Organizzazione Gemini GPU-F0001

Generare chiavi di crittografia

La generazione della chiave di crittografia per un'organizzazione è un'operazione una tantum. Se esegui nuovamente il comando, il sistema non sarà più in grado di decriptare i modelli caricati. Per generare la chiave, devi eseguire un job nella nuova organizzazione che hai appena creato.

KUBECONFIG=GEM_ORG_CP_KUBECONFIG_PATH
kubectl --kubeconfig=${KUBECONFIG:?} -n gemini create job --from=cronjob/gemini-weights-transfer-keygen

Al termine del job, dovresti essere in grado di leggere la chiave utilizzando il seguente comando

KUBECONFIG=GEM_ORG_CP_KUBECONFIG_PATH
kubectl --kubeconfig=${KUBECONFIG:?} -n gemini-system \
  logs job.batch/gemini-weights-transfer-keygen \
  | grep -oP '<PublicKey.*?</PublicKey>' | head -n 1

Passaggi successivi