Esegui il deployment di modelli di AI generativa

Alcuni modelli di AI generativa, come Gemini, dispongono di API gestite e sono pronti ad accettare prompt senza dover essere implementati. Per un elenco dei modelli con API gestite, consulta API per modelli di base.

Altri modelli di AI generativa devono essere implementati in un endpoint prima di essere pronti ad accettare i prompt. Esistono due tipi di modelli generativi che devono essere implementati:

Quando esegui il deployment di un modello in un endpoint, Vertex AI associa al modello risorse di calcolo e un URI in modo che possa soddisfare le richieste di prompt.

Esegui il deployment di un modello ottimizzato

I modelli ottimizzati vengono caricati automaticamente nel registro dei modelli di Vertex AI e di conseguenza in un endpoint di Vertex AI. I modelli ottimizzati non vengono visualizzati in Model Garden perché sono ottimizzati in base ai tuoi dati. Per ulteriori informazioni, consulta la Panoramica dell'ottimizzazione del modello.

Una volta attivato, l'endpoint è pronto ad accettare richieste di prompt al suo URI. Il formato della chiamata API per un modello ottimizzato è lo stesso del modello di base da cui è stato ottimizzato. Ad esempio, se il tuo modello è ottimizzato su Gemini, la richiesta del prompt deve rispettare l'API Gemini.

Assicurati di inviare richieste di prompt all'endpoint del modello ottimizzato anziché all'API gestita. L'endpoint del modello ottimizzato è nel formato:

https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID

Per ottenere l'ID endpoint, vedi Visualizzare o gestire un endpoint.

Per ulteriori informazioni sulla formattazione delle richieste di prompt, consulta il riferimento all'API Model.

Esegui il deployment di un modello generativo che non dispone di un'API gestita

Per utilizzare un modello del Model Garden che non dispone di un'API gestita, devi caricarlo nel registry dei modelli ed eseguire il deployment in un endpoint prima di poter inviare richieste di prompt. È simile al caricamento e all'implementazione di un modello addestrato personalizzato per la previsione online in Vertex AI.

Per eseguire il deployment di uno di questi modelli, vai a Model Garden e seleziona il modello che vuoi implementare.

Vai a Model Garden

Ogni scheda del modello mostra una o più delle seguenti opzioni di deployment:

  • Pulsante Esegui il deployment: la maggior parte dei modelli generativi in Model Garden è dotata di un pulsante Esegui il deployment che illustra la procedura di deployment su Vertex AI. Se non vedi il pulsante Esegui il deployment, vai al punto successivo.

    Per il deployment su Vertex AI, puoi utilizzare le impostazioni suggerite o modificarle. Puoi anche impostare le impostazioni di deployment Avanzate per, ad esempio, selezionare una prenotazione Compute Engine.

  • Pulsante Apri notebook: questa opzione apre un notebook Jupyter. Questa opzione viene visualizzata in ogni scheda del modello. Il Jupyter notebook include istruzioni e codice campione per il caricamento del modello in Model Registry, il deployment del modello in un endpoint e l'invio di una richiesta di prompt.

Una volta completato il deployment e l'endpoint è attivo, è pronto ad accettare richieste di prompt al suo URI. Il formato dell'API è predict e il formato di ogni instance nel corpo della richiesta dipende dal modello. Per saperne di più, consulta le seguenti risorse:

Assicurati di disporre di una quota di macchine sufficiente per eseguire il deployment del modello. Per visualizzare la quota corrente o richiederne una maggiore, vai alla pagina Quote in Google Cloud Console.

Vai a Quote

Quindi, filtra in base al nome della quota Custom Model Serving per visualizzare le quote per la previsione online. Per scoprire di più, consulta Visualizzare e gestire le quote.

Garantire la capacità per i modelli di cui è stato eseguito il deployment con le prenotazioni Compute Engine

Puoi eseguire il deployment dei modelli di Model Garden sulle risorse VM che sono state allocate tramite le prenotazioni di Compute Engine. Le prenotazioni contribuiscono a garantire che la capacità sia disponibile quando le richieste di previsione del modello ne hanno bisogno. Per ulteriori informazioni, consulta Utilizzare le prenotazioni con la previsione.

Visualizzare o gestire un modello

Per i modelli ottimizzati, puoi visualizzare il modello e il relativo job di ottimizzazione nella pagina Ottimizza e distilla della console Google Cloud.

Vai a Ottimizzazione e distillazione

Puoi anche visualizzare e gestire tutti i modelli caricati nel registro dei modelli.

Vai a Model Registry

Nel Registro dei modelli, un modello ottimizzato è classificato come modello di grandi dimensioni e presenta etichette che specificano il modello di base e la pipeline o il job di ottimizzazione utilizzati per l'ottimizzazione.

I modelli di cui è stato eseguito il deployment con il pulsante Esegui il deployment avranno Model Garden come Source. Tieni presente che, se il modello viene aggiornato in Model Garden, il modello caricato in Model Registry non viene aggiornato.

Per ulteriori informazioni, consulta Introduzione a Vertex AI Model Registry.

Visualizzare o gestire un endpoint

Per visualizzare e gestire l'endpoint, vai alla pagina Previsione online di Vertex AI. Per impostazione predefinita, il nome dell'endpoint è uguale al nome del modello.

Vai a Previsione online

Per ulteriori informazioni, consulta Eseguire il deployment di un modello in un endpoint.

Monitorare il traffico dell'endpoint del modello

Segui queste istruzioni per monitorare il traffico verso il tuo endpoint in Metrics Explorer.

  1. Nella console Google Cloud, vai alla pagina Esplora metriche.

    Vai a Esplora metriche

  2. Seleziona il progetto per cui vuoi visualizzare le metriche.

  3. Nel menu a discesa Metrica, fai clic su Seleziona una metrica.

  4. Nella barra di ricerca Filtra in base al nome della risorsa o della metrica, inserisci Vertex AI Endpoint.

  5. Seleziona la categoria di metriche Endpoint Vertex AI > Previsione. In Metriche attive, seleziona una delle seguenti metriche:

    • prediction/online/error_count
    • prediction/online/prediction_count
    • prediction/online/prediction_latencies
    • prediction/online/response_count

    Fai clic su Applica. Per aggiungere più di una metrica, fai clic su Aggiungi query.

    Puoi filtrare o aggregare le metriche utilizzando i seguenti menu a discesa:

    • Per selezionare e visualizzare un sottoinsieme di dati in base a criteri specificati, utilizza il menu a discesa Filtra. Ad esempio, endpoint_id = gemini-1p5-flash-002 (i punti decimali in un nome modello devono essere sostituiti con p).

    • Per combinare più punti dati in un unico valore e visualizzare una panoramica consuntiva delle metriche, utilizza il menu a discesa Aggregazione. Ad esempio, puoi aggregare la somma di response_code.

  6. (Facoltativo) Puoi impostare avvisi per il tuo endpoint. Per ulteriori informazioni, consulta Gestire i criteri di avviso.

Per visualizzare le metriche aggiunte al progetto utilizzando una dashboard, consulta la Panoramica delle dashboard.

Prezzi

Per i modelli ottimizzati, ti viene addebitato un importo per token alla stessa tariffa del modello di base da cui è stato ottimizzato il tuo modello. L'endpoint non ha costi perché la regolazione viene implementata come un piccolo adattatore sul modello di base. Per maggiori informazioni, consulta i prezzi dell'IA generativa su Vertex AI.

Per i modelli senza API gestite, ti vengono addebitate le ore di utilizzo della macchina dall'endpoint alla stessa tariffa delle previsioni online di Vertex AI. Non ti viene addebitato alcun costo per token. Per ulteriori informazioni, consulta i prezzi delle previsioni in Vertex AI.

Passaggi successivi