Questa pagina fornisce indicazioni per il deployment di un modello di AI generativa su un endpoint per la previsione online.
Controlla Model Garden
Se il modello si trova in Model Garden, puoi eseguirne il deployment facendo clic su Esegui il deployment (disponibile per alcuni modelli) o Apri blocco note.
In caso contrario, puoi procedere in uno dei seguenti modi:
Se il tuo modello è simile a quello di Model Garden, potresti essere in grado di riutilizzare direttamente uno dei container per il giardino dei modelli.
Crea il tuo container personalizzato conforme ai requisiti dei container personalizzati per la previsione prima di importare il modello in Vertex AI Model Registry. Dopo l'importazione, diventa una risorsa
model
di cui puoi eseguire il deployment in un endpoint.Puoi utilizzare i Dockerfile e gli script che utilizziamo per creare i nostri container Model Garden come riferimento o punto di partenza per creare container personalizzati.
Impostazioni per i container personalizzati
Questa sezione descrive i campi nella sezione containerSpec
del modello che potresti dover specificare durante l'importazione dei modelli di AI generativa.
sharedMemorySizeMb
Alcuni modelli di AI generativa richiedono più memoria condivisa. La memoria condivisa è un meccanismo di comunicazione tra processi (IPC) che consente a più processi di accedere a un blocco di memoria comune e di manipolarlo. La dimensione predefinita della memoria condivisa è 64 MB.
Alcuni server del modello, come vLLM o Nvidia Triton, utilizzano la memoria condivisa per memorizzare nella cache i dati interni durante le inferenze del modello. Senza un numero sufficiente di modelli condivisi, alcuni server non possono fornire previsioni per i modelli generativi. La quantità di memoria condivisa necessaria, se presente, corrisponde a un dettaglio dell'implementazione del container e del modello. Consulta la documentazione del server del modello per le linee guida.
Inoltre, poiché la memoria condivisa può essere utilizzata per la comunicazione tra GPU, l'utilizzo di una memoria più condivisa può migliorare le prestazioni degli acceleratori senza funzionalità di NVLink (ad esempio L4), se il container del modello richiede la comunicazione tra GPU.
Per informazioni su come specificare un valore personalizzato per la memoria condivisa, consulta Campi API relativi ai container.
startupProbe
Un probe di avvio è un probe facoltativo che viene utilizzato per rilevare quando è stato avviato il container. Questo probe viene utilizzato per ritardare il probe di integrità e i controlli di attività fino all'avvio del container, in modo da evitare che i container ad avvio lento vengano arrestati prematuramente.
Per saperne di più, consulta Controlli di integrità.
healthProbe
Il probe di integrità controlla se un container è pronto ad accettare traffico. Se il probe di integrità non viene fornito, Vertex AI utilizzerà i controlli di integrità predefiniti che inviano una richiesta HTTP alla porta del container e cerca una risposta
200 OK
dal server del modello.Se il server del modello risponde con
200 OK
prima che il modello sia completamente caricato, il che è possibile soprattutto nel caso dei modelli di grandi dimensioni, il controllo di integrità riuscirà prematuramente e Vertex AI reindirizzerà il traffico al container prima che sia pronto.In questi casi, specifica un probe di integrità personalizzato che abbia esito positivo solo dopo che il modello è stato completamente caricato e pronto per accettare traffico.
Per saperne di più, consulta Controlli di integrità.