Esegui il deployment di modelli di AI generativa

Questa pagina fornisce indicazioni per il deployment di un modello di AI generativa in un endpoint per la previsione online.

Controllare Model Garden

Se il modello si trova in Model Garden, puoi eseguirlo facendo clic su Esegui il deployment (disponibile per alcuni modelli) o Apri blocco note.

Vai a Model Garden

In caso contrario, puoi eseguire una delle seguenti operazioni:

Pubblicazione di previsioni con NVIDIA NIM

I microservizi di inferenza NVIDIA (NIM) sono modelli di AI preaddestrati e ottimizzati pacchettizzati come microservizi. Sono progettati per semplificare il deployment di AI ad alte prestazioni e pronte per la produzione nelle applicazioni.

NVIDIA NIM può essere utilizzato insieme a Artifact Registry e Vertex AI Prediction per eseguire il deployment di modelli di IA generativa per la previsione online.

Impostazioni per i container personalizzati

Questa sezione descrive i campi del containerSpec del modello che potresti dover specificare durante l'importazione dei modelli di AI generativa.

Puoi specificare questi campi utilizzando l'API REST di Vertex AI o il comando gcloud ai models upload. Per ulteriori informazioni, consulta Campi dell'API relativi ai contenitori.

sharedMemorySizeMb

Alcuni modelli di AI generativa richiedono più memoria condivisa. La memoria condivisa è un meccanismo di comunicazione interprocessuale (IPC) che consente a più processi di accedere e manipolare un blocco di memoria comune. La dimensione predefinita della memoria condivisa è 64 MB.

Alcuni server di modelli, come vLLM o Nvidia Triton, utilizzano la memoria condivisa per memorizzare nella cache i dati interni durante le inferenze del modello. Senza memoria condivisa sufficiente, alcuni server del modello non possono fornire le predizioni per i modelli generativi. La quantità di memoria condivisa necessaria, se presente, è un dettaglio di implementazione del contenitore e del modello. Consulta la documentazione del server di modelli per le linee guida.

Inoltre, poiché la memoria condivisa può essere utilizzata per la comunicazione tra GPU, l'utilizzo di più memoria condivisa può migliorare le prestazioni per gli acceleratori senza funzionalità NVLink (ad esempio L4), se il contenitore del modello richiede la comunicazione tra GPU.

Per informazioni su come specificare un valore personalizzato per la memoria condivisa, consulta Campi API relativi ai contenitori.

startupProbe

Un probe di avvio è un probe facoltativo utilizzato per rilevare l'avvio del container. Questo probe viene utilizzato per ritardare il probe dell'integrità e i controlli di attività fino all'avvio del contenitore, il che contribuisce a evitare che i contenitori con avvio lento vengano chiusi prematuramente.

Per ulteriori informazioni, consulta Controlli di integrità.

healthProbe

Il probe di integrità controlla se un container è pronto ad accettare il traffico. Se non viene fornito il controllo di integrità, Vertex AI utilizzerà i controlli di integrità predefiniti che inviano una richiesta HTTP alla porta del contenitore e cercano una risposta 200 OK dal server del modello.

Se il server del modello risponde con 200 OK prima che il modello sia completamente caricato, il controllo di stato andrà a buon fine in modo prematuro e Vertex AI indirizzerà il traffico al contenitore prima che sia pronto.

In questi casi, specifica un probe di integrità personalizzato che riesca solo dopo che il modello è completamente caricato e pronto ad accettare il traffico.

Per ulteriori informazioni, consulta Controlli di integrità.

Limitazioni

Tieni presenti le seguenti limitazioni quando implementi i modelli di AI generativa:

  • I modelli di IA generativa possono essere implementati solo su una singola macchina. Il deployment su più host non è supportato.
  • Per i modelli di grandi dimensioni che non rientrano nella VRAM più grande supportata, ad esempio Llama 3.1 405B, consigliamo di quantizzarli per adattarli.