Esegui il deployment di modelli di AI generativa

Questa pagina fornisce indicazioni per il deployment di un modello di AI generativa su un endpoint per la previsione online.

Controlla Model Garden

Se il modello si trova in Model Garden, puoi eseguirne il deployment facendo clic su Esegui il deployment (disponibile per alcuni modelli) o Apri blocco note.

Vai a Model Garden

In caso contrario, puoi procedere in uno dei seguenti modi:

Impostazioni per i container personalizzati

Questa sezione descrive i campi nella sezione containerSpec del modello che potresti dover specificare durante l'importazione dei modelli di AI generativa.

sharedMemorySizeMb

Alcuni modelli di AI generativa richiedono più memoria condivisa. La memoria condivisa è un meccanismo di comunicazione tra processi (IPC) che consente a più processi di accedere a un blocco di memoria comune e di manipolarlo. La dimensione predefinita della memoria condivisa è 64 MB.

Alcuni server del modello, come vLLM o Nvidia Triton, utilizzano la memoria condivisa per memorizzare nella cache i dati interni durante le inferenze del modello. Senza un numero sufficiente di modelli condivisi, alcuni server non possono fornire previsioni per i modelli generativi. La quantità di memoria condivisa necessaria, se presente, corrisponde a un dettaglio dell'implementazione del container e del modello. Consulta la documentazione del server del modello per le linee guida.

Inoltre, poiché la memoria condivisa può essere utilizzata per la comunicazione tra GPU, l'utilizzo di una memoria più condivisa può migliorare le prestazioni degli acceleratori senza funzionalità di NVLink (ad esempio L4), se il container del modello richiede la comunicazione tra GPU.

Per informazioni su come specificare un valore personalizzato per la memoria condivisa, consulta Campi API relativi ai container.

startupProbe

Un probe di avvio è un probe facoltativo che viene utilizzato per rilevare quando è stato avviato il container. Questo probe viene utilizzato per ritardare il probe di integrità e i controlli di attività fino all'avvio del container, in modo da evitare che i container ad avvio lento vengano arrestati prematuramente.

Per saperne di più, consulta Controlli di integrità.

healthProbe

Il probe di integrità controlla se un container è pronto ad accettare traffico. Se il probe di integrità non viene fornito, Vertex AI utilizzerà i controlli di integrità predefiniti che inviano una richiesta HTTP alla porta del container e cerca una risposta 200 OK dal server del modello.

Se il server del modello risponde con 200 OK prima che il modello sia completamente caricato, il che è possibile soprattutto nel caso dei modelli di grandi dimensioni, il controllo di integrità riuscirà prematuramente e Vertex AI reindirizzerà il traffico al container prima che sia pronto.

In questi casi, specifica un probe di integrità personalizzato che abbia esito positivo solo dopo che il modello è stato completamente caricato e pronto per accettare traffico.

Per saperne di più, consulta Controlli di integrità.