Alcuni modelli di AI generativa, come Gemini, dispongono di API gestite e sono pronti ad accettare prompt senza dover essere implementati. Per un elenco dei modelli con API gestite, consulta API per modelli di base.
Altri modelli di AI generativa devono essere implementati in un endpoint prima di essere pronti ad accettare i prompt. Esistono due tipi di modelli generativi che devono essere implementati:
Modelli ottimizzati, che crei ottimizzando un modello di base supportato con i tuoi dati.
Modelli generativi che non dispongono di API gestite. In Model Garden, si tratta di modelli che non sono etichettati come API disponibili o Vertex AI Studio, ad esempio Llama 2.
Quando esegui il deployment di un modello in un endpoint, Vertex AI associa al modello risorse di calcolo e un URI in modo che possa soddisfare le richieste di prompt.
Esegui il deployment di un modello ottimizzato
I modelli ottimizzati vengono caricati automaticamente nel
registro dei modelli di Vertex AI
e di conseguenza in un endpoint
di Vertex AI. I modelli ottimizzati non vengono visualizzati in Model Garden perché sono ottimizzati in base ai tuoi dati.
Per ulteriori informazioni, consulta la Panoramica dell'ottimizzazione del modello.
Una volta attivato, l'endpoint è pronto ad accettare richieste di prompt al suo URI. Il formato della chiamata API per un modello ottimizzato è lo stesso del modello di base da cui è stato ottimizzato. Ad esempio, se il tuo modello è ottimizzato su Gemini, la richiesta del prompt deve rispettare l'API Gemini.
Assicurati di inviare richieste di prompt all'endpoint del modello ottimizzato anziché all'API gestita. L'endpoint del modello ottimizzato è nel formato:
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID
Per ottenere l'ID endpoint, vedi Visualizzare o gestire un endpoint.
Per ulteriori informazioni sulla formattazione delle richieste di prompt, consulta il riferimento all'API Model.
Esegui il deployment di un modello generativo che non dispone di un'API gestita
Per utilizzare un modello del Model Garden che non dispone di un'API gestita, devi caricarlo nel registry dei modelli ed eseguire il deployment in un endpoint prima di poter inviare richieste di prompt. È simile al caricamento e all'implementazione di un modello addestrato personalizzato per la previsione online in Vertex AI.
Per eseguire il deployment di uno di questi modelli, vai a Model Garden e seleziona il modello che vuoi implementare.
Ogni scheda del modello mostra una o più delle seguenti opzioni di deployment:
Pulsante Esegui il deployment: la maggior parte dei modelli generativi in Model Garden è dotata di un pulsante Esegui il deployment che illustra la procedura di deployment su Vertex AI. Se non vedi il pulsante Esegui il deployment, vai al punto successivo.
Per il deployment su Vertex AI, puoi utilizzare le impostazioni suggerite o modificarle. Puoi anche impostare le impostazioni di deployment Avanzate per, ad esempio, selezionare una prenotazione Compute Engine.
Pulsante Apri notebook: questa opzione apre un notebook Jupyter. Questa opzione viene visualizzata in ogni scheda del modello. Il Jupyter notebook include istruzioni e codice campione per il caricamento del modello in Model Registry, il deployment del modello in un endpoint e l'invio di una richiesta di prompt.
Una volta completato il deployment e l'endpoint è attivo, è pronto ad accettare richieste di prompt al suo URI. Il formato dell'API è
predict
e il formato
di ogni instance
nel corpo della richiesta dipende dal modello. Per saperne di più, consulta le seguenti risorse:
Assicurati di disporre di una quota di macchine sufficiente per eseguire il deployment del modello. Per visualizzare la quota corrente o richiederne una maggiore, vai alla pagina Quote in Google Cloud Console.
Quindi, filtra in base al nome della quota Custom Model Serving
per visualizzare le quote per la previsione online. Per scoprire di più, consulta Visualizzare e gestire le quote.
Garantire la capacità per i modelli di cui è stato eseguito il deployment con le prenotazioni Compute Engine
Puoi eseguire il deployment dei modelli di Model Garden sulle risorse VM che sono state allocate tramite le prenotazioni di Compute Engine. Le prenotazioni contribuiscono a garantire che la capacità sia disponibile quando le richieste di previsione del modello ne hanno bisogno. Per ulteriori informazioni, consulta Utilizzare le prenotazioni con la previsione.
Visualizzare o gestire un modello
Per i modelli ottimizzati, puoi visualizzare il modello e il relativo job di ottimizzazione nella pagina Ottimizza e distilla della console Google Cloud.
Vai a Ottimizzazione e distillazione
Puoi anche visualizzare e gestire tutti i modelli caricati nel registro dei modelli.
Nel Registro dei modelli, un modello ottimizzato è classificato come modello di grandi dimensioni e presenta etichette che specificano il modello di base e la pipeline o il job di ottimizzazione utilizzati per l'ottimizzazione.
I modelli di cui è stato eseguito il deployment con il pulsante Esegui il deployment avranno Model Garden come Source
.
Tieni presente che, se il modello viene aggiornato in Model Garden, il modello caricato in Model Registry non viene aggiornato.
Per ulteriori informazioni, consulta Introduzione a Vertex AI Model Registry.
Visualizzare o gestire un endpoint
Per visualizzare e gestire l'endpoint, vai alla pagina Previsione online di Vertex AI. Per impostazione predefinita, il nome dell'endpoint è uguale al nome del modello.
Per ulteriori informazioni, consulta Eseguire il deployment di un modello in un endpoint.
Monitorare il traffico dell'endpoint del modello
Segui queste istruzioni per monitorare il traffico verso il tuo endpoint in Metrics Explorer.
Nella console Google Cloud, vai alla pagina Esplora metriche.
Seleziona il progetto per cui vuoi visualizzare le metriche.
Nel menu a discesa Metrica, fai clic su Seleziona una metrica.
Nella barra di ricerca Filtra in base al nome della risorsa o della metrica, inserisci
Vertex AI Endpoint
.Seleziona la categoria di metriche Endpoint Vertex AI > Previsione. In Metriche attive, seleziona una delle seguenti metriche:
prediction/online/error_count
prediction/online/prediction_count
prediction/online/prediction_latencies
prediction/online/response_count
Fai clic su Applica. Per aggiungere più di una metrica, fai clic su Aggiungi query.
Puoi filtrare o aggregare le metriche utilizzando i seguenti menu a discesa:
Per selezionare e visualizzare un sottoinsieme di dati in base a criteri specificati, utilizza il menu a discesa Filtra. Ad esempio,
endpoint_id = gemini-1p5-flash-002
(i punti decimali in un nome modello devono essere sostituiti conp
).Per combinare più punti dati in un unico valore e visualizzare una panoramica consuntiva delle metriche, utilizza il menu a discesa Aggregazione. Ad esempio, puoi aggregare la somma di
response_code
.
(Facoltativo) Puoi impostare avvisi per il tuo endpoint. Per ulteriori informazioni, consulta Gestire i criteri di avviso.
Per visualizzare le metriche aggiunte al progetto utilizzando una dashboard, consulta la Panoramica delle dashboard.
Prezzi
Per i modelli ottimizzati, ti viene addebitato un importo per token alla stessa tariffa del modello di base da cui è stato ottimizzato il tuo modello. L'endpoint non ha costi perché la regolazione viene implementata come un piccolo adattatore sul modello di base. Per maggiori informazioni, consulta i prezzi dell'IA generativa su Vertex AI.
Per i modelli senza API gestite, ti vengono addebitate le ore di utilizzo della macchina dall'endpoint alla stessa tariffa delle previsioni online di Vertex AI. Non ti viene addebitato alcun costo per token. Per ulteriori informazioni, consulta i prezzi delle previsioni in Vertex AI.
Passaggi successivi
- Panoramica dell'ottimizzazione del modello
- Riferimento all'API Model
- Eseguire il deployment di un modello in un endpoint