Alcuni modelli di AI generativa, come Gemini, dispongono di API gestite e sono pronti ad accettare prompt senza dover essere implementati. Per un elenco dei modelli con API gestite, consulta API dei modelli di base.
Prima di eseguire il deployment di altri modelli di AI generativa in un endpoint, sono pronti ad accettare i prompt. Esistono due tipi di modelli generativi che devono essere implementati:
Modelli ottimizzati, creati mediante l'ottimizzazione di un di base supportato con i tuoi dati.
Modelli generativi che non hanno API gestite. In Model Garden, si tratta di modelli che non sono etichettati come API disponibili o Vertex AI Studio, ad esempio Llama 2.
Quando esegui il deployment di un modello in un endpoint, Vertex AI associa al modello risorse di calcolo e un URI in modo che possa soddisfare le richieste di prompt.
Esegui il deployment di un modello ottimizzato
I modelli ottimizzati vengono caricati automaticamente
Vertex AI Model Registry
e il deployment in un'istanza Vertex AI
endpoint
I modelli ottimizzati
vengono visualizzati in Model Garden perché sono ottimizzati sulla base dei tuoi dati.
Per ulteriori informazioni, vedi
Panoramica dell'ottimizzazione del modello.
Una volta attivato, l'endpoint è pronto ad accettare richieste di prompt al suo URI. Il formato della chiamata API per un modello ottimizzato corrisponde a quello del modello di base da cui è stato eseguito l'ottimizzazione. Ad esempio, se il modello è ottimizzato su Gemini, i tuoi deve seguire l'API Gemini.
Assicurati di inviare richieste di prompt all'endpoint del modello ottimizzato anziché tramite un'API gestita. L'endpoint del modello ottimizzato è nel formato:
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID
Per ottenere l'ID endpoint, vedi Visualizzare o gestire un endpoint.
Per ulteriori informazioni sulla formattazione delle richieste di prompt, consulta Riferimento API Model.
Eseguire il deployment di un modello generativo senza un'API gestita
Per utilizzare un modello di Model Garden che non dispone di un API, devi caricare il modello in Model Registry eseguirne il deployment in un endpoint prima di poter inviare richieste di prompt. È simile al caricamento e all'implementazione di un modello addestrato personalizzato per la previsione online in Vertex AI.
Per eseguire il deployment di uno di questi modelli, vai in Model Garden e seleziona del modello di cui vuoi eseguire il deployment.
Ogni scheda del modello mostra una o più delle seguenti opzioni di deployment:
Pulsante Esegui il deployment: la maggior parte dei modelli generativi in Model Garden è disponibile un pulsante Deploy che ti guida attraverso il deployment in Vertex AI. Se non vedi Deployment , vai al punto successivo.
Per il deployment su Vertex AI, puoi utilizzare le impostazioni suggerite o modificarle. Puoi anche impostare le impostazioni di deployment Avanzate per, ad esempio, selezionare una prenotazione Compute Engine.
Pulsante Apri blocco note: questa opzione apre un blocco note Jupyter. Ogni modello mostra questa opzione. Il Jupyter notebook include istruzioni e codice di esempio per il caricamento del modello in Model Registry, il deployment del modello in un endpoint e l'invio di una richiesta di prompt.
Una volta completato il deployment e l'endpoint è attivo, è pronto ad accettare richieste di prompt al suo URI. Il formato dell'API è
predict
e il formato
di ogni instance
nel corpo della richiesta dipende dal modello. Per ulteriori informazioni, consulta
seguenti risorse:
Assicurati di disporre di una quota di macchine sufficiente per eseguire il deployment del modello. Per visualizzare quota corrente o richiedi una quota maggiore, nella console Google Cloud, vai alla Quote.
Quindi, filtra in base al nome della quota Custom Model Serving
per vedere le quote
la previsione online. Per scoprire di più, consulta Visualizzare e gestire le quote.
Garantire la capacità per i modelli di cui è stato eseguito il deployment con le prenotazioni Compute Engine
Puoi eseguire il deployment dei modelli Model Garden su risorse VM che sono state e allocati mediante prenotazioni di Compute Engine. Le prenotazioni contribuiscono a garantire che la capacità sia disponibile quando le richieste di previsione del modello ne hanno bisogno. Per maggiori informazioni, consulta Utilizzare le prenotazioni con la previsione.
Visualizza o gestisci un modello
Per i modelli ottimizzati, puoi visualizzare il modello e il suo job di ottimizzazione nella scheda Ottimizza e Distill nella console Google Cloud.
Vai a Ottimizzazione e distillazione
Puoi anche visualizzare e gestire tutti i modelli caricati in registro dei modelli.
In Model Registry, un modello ottimizzato viene classificato come Modello di grandi dimensioni e contiene etichette che specificano il modello di base e la pipeline o un job di ottimizzazione usato per l'ottimizzazione.
I modelli di cui è stato eseguito il deployment con il pulsante Esegui il deployment avranno Model Garden come Source
.
Tieni presente che, se il modello viene aggiornato in Model Garden, il modello caricato in Model Registry non viene aggiornato.
Per ulteriori informazioni, consulta Introduzione a Vertex AI Model Registry.
Visualizzare o gestire un endpoint
Per visualizzare e gestire il tuo endpoint, vai alla pagina Previsione online di Vertex AI. Per impostazione predefinita, il nome dell'endpoint corrisponde al nome del modello.
Per ulteriori informazioni, consulta Eseguire il deployment di un modello in un endpoint.
Prezzi
Per i modelli ottimizzati, la fatturazione per token viene applicata alla stessa tariffa di quella di base modello da cui è stato ottimizzato il modello. L'endpoint non ha costi perché la regolazione viene implementata come piccolo adattatore sul modello di base. Per per saperne di più, consulta i prezzi di Generative AI su Vertex AI.
Per i modelli senza API gestite, ti vengono addebitate le ore macchina usata dal tuo endpoint alla stessa velocità di Vertex AI online. per le previsioni. Non ti viene addebitato alcun costo per token. Per ulteriori informazioni, consulta i prezzi delle previsioni in Vertex AI.
Passaggi successivi
- Panoramica dell'ottimizzazione del modello
- Riferimento all'API Model
- Eseguire il deployment di un modello in un endpoint