Alcuni modelli di AI generativa, come Gemini, dispongono di API gestite e sono pronti ad accettare prompt senza deployment. Per un elenco di modelli con API gestite, vedi API per i modelli di base.
Il deployment di altri modelli di AI generativa in un endpoint prima di essere pronti ad accettare i prompt. È necessario eseguire il deployment di due tipi di modelli generativi:
Modelli ottimizzati, che vengono creati ottimizzando un modello di base supportato con i tuoi dati.
Modelli generativi che non dispongono di API gestite. In Model Garden, i modelli non sono etichettati come API disponibili o Vertex AI Studio, ad esempio Llama 2.
Quando esegui il deployment di un modello in un endpoint, Vertex AI associa le risorse di computing e un URI al modello in modo che possa gestire le richieste dei prompt.
Esegui il deployment di un modello ottimizzato
I modelli ottimizzati vengono caricati automaticamente in Vertex AI Model Registry e ne viene eseguito il deployment in Vertex AI endpoint
. I modelli ottimizzati non vengono visualizzati
in Model Garden perché sono ottimizzati con i tuoi dati.
Per maggiori informazioni, consulta la Panoramica dell'ottimizzazione del modello.
Quando l'endpoint è attivo, è pronto ad accettare richieste di prompt nel relativo URI. Il formato della chiamata API per un modello ottimizzato è lo stesso del modello di base da cui è stato ottimizzato. Ad esempio, se il modello è ottimizzato su Gemini, la richiesta del prompt deve seguire l'API Gemini.
Assicurati di inviare richieste di prompt all'endpoint del modello ottimizzato anziché all'API gestita. L'endpoint del modello ottimizzato ha il seguente formato:
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID
Per ottenere l'ID endpoint, vedi Visualizzare o gestire un endpoint.
Per ulteriori informazioni sulla formattazione delle richieste dei prompt, consulta il riferimento sull'API dei modelli.
Eseguire il deployment di un modello generativo che non ha un'API gestita
Per utilizzare un modello di Model Garden che non dispone di un'API gestita, devi caricare il modello in Model Registry ed eseguirne il deployment su un endpoint prima di poter inviare richieste di prompt. Questa operazione è simile al caricamento e al deployment di un modello addestrato personalizzato per la previsione online in Vertex AI.
Per eseguire il deployment di uno di questi modelli, vai a Model Garden e seleziona il modello di cui eseguire il deployment.
Ogni scheda del modello mostra una o più delle seguenti opzioni di deployment:
Pulsante Esegui il deployment: la maggior parte dei modelli generativi in Model Garden dispone di un pulsante Esegui il deployment che ti consente di eseguire il deployment in Vertex AI. Se non vedi il pulsante Esegui il deployment, vai al punto successivo.
Per il deployment su Vertex AI, puoi anche scegliere tra Deployment con un solo clic con le impostazioni consigliate o Avanzate per ottenere controlli granulari su come il modello viene salvato nel registro dei modelli e ne viene eseguito il deployment su un endpoint Vertex AI.
Pulsante Apri blocco note: questa opzione apre un blocco note Jupyter. Ogni scheda del modello mostra questa opzione. Il blocco note Jupyter include istruzioni e codice campione per caricare il modello nel registro dei modelli, eseguire il deployment del modello in un endpoint e inviare una richiesta di prompt.
Una volta che il deployment è stato completato e l'endpoint è attivo, è pronto per accettare
richieste di prompt nel relativo URI. Il formato dell'API è predict
e il formato di ogni instance
nel corpo della richiesta dipende dal modello. Per saperne di più, consulta le seguenti risorse:
Assicurati di disporre di una quota macchina sufficiente per eseguire il deployment del modello. Per visualizzare la quota attuale o richiederne una maggiore, vai alla pagina Quote nella console Google Cloud.
Quindi, filtra in base al nome della quota Custom Model Serving
per vedere le quote per la previsione online. Per scoprire di più, vedi Visualizzare e gestire le quote.
Visualizzare o gestire un modello
Per i modelli ottimizzati, puoi visualizzare il modello e il relativo job di ottimizzazione nella pagina Tune and Distill nella console Google Cloud.
Puoi anche visualizzare e gestire tutti i tuoi modelli caricati nel registro dei modelli.
In Model Registry, un modello ottimizzato è classificato come Modello grande e contiene etichette che specificano il modello di base e la pipeline o il job di ottimizzazione utilizzato per l'ottimizzazione.
I modelli di cui è stato eseguito il deployment con il pulsante Esegui il deployment indicheranno Model Garden come Source
.
Tieni presente che, se il modello viene aggiornato in Model Garden, il modello caricato in Model Registry non verrà aggiornato.
Per saperne di più, consulta Introduzione a Vertex AI Model Registry.
Visualizza o gestisci un endpoint
Per visualizzare e gestire l'endpoint, vai alla pagina Previsione online di Vertex AI. Per impostazione predefinita, il nome dell'endpoint corrisponde a quello del modello.
Per maggiori informazioni, consulta Eseguire il deployment di un modello su un endpoint.
Prezzi
Per i modelli ottimizzati, la tariffa per token ti viene addebitata alla stessa tariffa del modello di base da cui è stato ottimizzato il modello. L'endpoint non prevede costi perché l'ottimizzazione viene implementata come un piccolo adattatore al di sopra del modello di base. Per ulteriori informazioni, consulta i prezzi di Generative AI su Vertex AI.
Per i modelli senza API gestite, ti vengono addebitate le ore macchina utilizzate dal tuo endpoint alla stessa tariffa delle previsioni online di Vertex AI. Non ti viene addebitato alcun costo per token. Per ulteriori informazioni, consulta i prezzi delle previsioni in Vertex AI.
Passaggi successivi
- Panoramica dell'ottimizzazione del modello
- Riferimento API Model
- Esegui il deployment di un modello in un endpoint