Esegui il deployment di modelli di AI generativa

Alcuni modelli di AI generativa, come Gemini, dispongono di API gestite e sono pronti ad accettare prompt senza deployment. Per un elenco di modelli con API gestite, vedi API per i modelli di base.

Il deployment di altri modelli di AI generativa in un endpoint prima di essere pronti ad accettare i prompt. È necessario eseguire il deployment di due tipi di modelli generativi:

Quando esegui il deployment di un modello in un endpoint, Vertex AI associa le risorse di computing e un URI al modello in modo che possa gestire le richieste dei prompt.

Esegui il deployment di un modello ottimizzato

I modelli ottimizzati vengono caricati automaticamente in Vertex AI Model Registry e ne viene eseguito il deployment in Vertex AI endpoint. I modelli ottimizzati non vengono visualizzati in Model Garden perché sono ottimizzati con i tuoi dati. Per maggiori informazioni, consulta la Panoramica dell'ottimizzazione del modello.

Quando l'endpoint è attivo, è pronto ad accettare richieste di prompt nel relativo URI. Il formato della chiamata API per un modello ottimizzato è lo stesso del modello di base da cui è stato ottimizzato. Ad esempio, se il modello è ottimizzato su Gemini, la richiesta del prompt deve seguire l'API Gemini.

Assicurati di inviare richieste di prompt all'endpoint del modello ottimizzato anziché all'API gestita. L'endpoint del modello ottimizzato ha il seguente formato:

https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID

Per ottenere l'ID endpoint, vedi Visualizzare o gestire un endpoint.

Per ulteriori informazioni sulla formattazione delle richieste dei prompt, consulta il riferimento sull'API dei modelli.

Eseguire il deployment di un modello generativo che non ha un'API gestita

Per utilizzare un modello di Model Garden che non dispone di un'API gestita, devi caricare il modello in Model Registry ed eseguirne il deployment su un endpoint prima di poter inviare richieste di prompt. Questa operazione è simile al caricamento e al deployment di un modello addestrato personalizzato per la previsione online in Vertex AI.

Per eseguire il deployment di uno di questi modelli, vai a Model Garden e seleziona il modello di cui eseguire il deployment.

Vai a Model Garden

Ogni scheda del modello mostra una o più delle seguenti opzioni di deployment:

  • Pulsante Esegui il deployment: la maggior parte dei modelli generativi in Model Garden dispone di un pulsante Esegui il deployment che ti consente di eseguire il deployment in Vertex AI. Se non vedi il pulsante Esegui il deployment, vai al punto successivo.

    Per il deployment su Vertex AI, puoi anche scegliere tra Deployment con un solo clic con le impostazioni consigliate o Avanzate per ottenere controlli granulari su come il modello viene salvato nel registro dei modelli e ne viene eseguito il deployment su un endpoint Vertex AI.

  • Pulsante Apri blocco note: questa opzione apre un blocco note Jupyter. Ogni scheda del modello mostra questa opzione. Il blocco note Jupyter include istruzioni e codice campione per caricare il modello nel registro dei modelli, eseguire il deployment del modello in un endpoint e inviare una richiesta di prompt.

Una volta che il deployment è stato completato e l'endpoint è attivo, è pronto per accettare richieste di prompt nel relativo URI. Il formato dell'API è predict e il formato di ogni instance nel corpo della richiesta dipende dal modello. Per saperne di più, consulta le seguenti risorse:

Assicurati di disporre di una quota macchina sufficiente per eseguire il deployment del modello. Per visualizzare la quota attuale o richiederne una maggiore, vai alla pagina Quote nella console Google Cloud.

Vai a Quote

Quindi, filtra in base al nome della quota Custom Model Serving per vedere le quote per la previsione online. Per scoprire di più, vedi Visualizzare e gestire le quote.

Visualizzare o gestire un modello

Per i modelli ottimizzati, puoi visualizzare il modello e il relativo job di ottimizzazione nella pagina Tune and Distill nella console Google Cloud.

Vai a Tune and Distill

Puoi anche visualizzare e gestire tutti i tuoi modelli caricati nel registro dei modelli.

Vai a Model Registry

In Model Registry, un modello ottimizzato è classificato come Modello grande e contiene etichette che specificano il modello di base e la pipeline o il job di ottimizzazione utilizzato per l'ottimizzazione.

I modelli di cui è stato eseguito il deployment con il pulsante Esegui il deployment indicheranno Model Garden come Source. Tieni presente che, se il modello viene aggiornato in Model Garden, il modello caricato in Model Registry non verrà aggiornato.

Per saperne di più, consulta Introduzione a Vertex AI Model Registry.

Visualizza o gestisci un endpoint

Per visualizzare e gestire l'endpoint, vai alla pagina Previsione online di Vertex AI. Per impostazione predefinita, il nome dell'endpoint corrisponde a quello del modello.

Vai alla previsione online

Per maggiori informazioni, consulta Eseguire il deployment di un modello su un endpoint.

Prezzi

Per i modelli ottimizzati, la tariffa per token ti viene addebitata alla stessa tariffa del modello di base da cui è stato ottimizzato il modello. L'endpoint non prevede costi perché l'ottimizzazione viene implementata come un piccolo adattatore al di sopra del modello di base. Per ulteriori informazioni, consulta i prezzi di Generative AI su Vertex AI.

Per i modelli senza API gestite, ti vengono addebitate le ore macchina utilizzate dal tuo endpoint alla stessa tariffa delle previsioni online di Vertex AI. Non ti viene addebitato alcun costo per token. Per ulteriori informazioni, consulta i prezzi delle previsioni in Vertex AI.

Passaggi successivi