Esegui il deployment di modelli di AI generativa

Alcuni modelli di AI generativa, come Gemini, dispongono di API gestite e sono pronti ad accettare prompt senza deployment. Per un elenco di modelli con API gestite, consulta la sezione API per modelli di base.

Gli altri modelli di AI generativa devono essere sottoposti a deployment in un endpoint prima di poter accettare prompt. Esistono due tipi di modelli generativi che devono essere implementati:

Quando esegui il deployment di un modello su un endpoint, Vertex AI associa risorse di calcolo e un URI al modello in modo che possa gestire le richieste di prompt.

Esegui il deployment di un modello ottimizzato

I modelli ottimizzati vengono caricati automaticamente in Vertex AI Model Registry e vengono sottoposti a deployment in un endpoint pubblico condiviso di Vertex AI. I modelli ottimizzati non vengono visualizzati in Model Garden perché sono ottimizzati con i tuoi dati. Per ulteriori informazioni, consulta la panoramica dell'ottimizzazione del modello.

Una volta che l'endpoint è attivo, è pronto ad accettare richieste di prompt al suo URI. Il formato della chiamata API per un modello ottimizzato è lo stesso del foundation model da cui è stato ottimizzato. Ad esempio, se il tuo modello è ottimizzato su Gemini, la richiesta di prompt deve seguire l'API Gemini.

Assicurati di inviare richieste di prompt all'endpoint del modello ottimizzato anziché all'API gestita. L'endpoint del modello ottimizzato è nel formato:

https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID

Per ottenere l'ID endpoint, vedi Visualizzare o gestire un endpoint.

Per ulteriori informazioni sulla formattazione delle richieste di prompt, consulta il riferimento API Model.

Esegui il deployment di un modello generativo che non ha un'API gestita

Per utilizzare un modello di Model Garden che non dispone di un'API gestita, devi caricare il modello nel registro dei modelli ed eseguirne il deployment in un endpoint prima di poter inviare richieste di prompt. Questa operazione è simile al caricamento e all'esecuzione del deployment di un modello addestrato personalizzato per la previsione online in Vertex AI.

Per eseguire il deployment di uno di questi modelli, vai a Model Garden e seleziona il modello che vuoi eseguire il deployment.

Vai a Model Garden

Ogni scheda del modello mostra una o più delle seguenti opzioni di deployment:

  • Pulsante Esegui il deployment: la maggior parte dei modelli generativi in Model Garden ha un pulsante Esegui il deployment che ti guida nell'esecuzione del deployment su Vertex AI. Se non vedi il pulsante Esegui il deployment, vai al punto successivo.

    Per il deployment su Vertex AI, puoi utilizzare le impostazioni suggerite o modificarle. Puoi anche impostare le impostazioni di deployment avanzate per, ad esempio, selezionare una prenotazione di Compute Engine.

  • Pulsante Apri notebook: questa opzione apre un notebook Jupyter. Questa opzione viene visualizzata in ogni scheda del modello. Il notebook Jupyter include istruzioni e codice campioneo per caricare il modello in Model Registry, eseguire il deployment del modello su un endpoint e inviare una richiesta di prompt.

Una volta completata l'implementazione e l'endpoint è attivo, è pronto ad accettare richieste di prompt al suo URI. Il formato dell'API è predict e il formato di ogni instance nel corpo della richiesta dipende dal modello. Per maggiori informazioni, consulta le seguenti risorse:

Assicurati di disporre di una quota di macchine sufficiente per eseguire il deployment del modello. Per visualizzare la quota corrente o richiederne una maggiore, vai alla pagina Quote nella console Google Cloud .

Vai a Quote

Poi, filtra in base al nome della quota Custom Model Serving per visualizzare le quote per la previsione online. Per scoprire di più, consulta Visualizza e gestisci le quote.

Garantire la capacità per i modelli di cui è stato eseguito il deployment con le prenotazioni di Compute Engine

Puoi eseguire il deployment dei modelli Model Garden su risorse VM allocate tramite le prenotazioni di Compute Engine. Le prenotazioni contribuiscono a garantire che la capacità sia disponibile quando le richieste di previsione del modello ne hanno bisogno. Per ulteriori informazioni, consulta Utilizza le prenotazioni con la previsione.

Visualizzare o gestire un modello

Per i modelli ottimizzati, puoi visualizzare il modello e il relativo job di ottimizzazione nella pagina Ottimizza e distilla nella console Google Cloud .

Vai a Ottimizzazione e distillazione

Puoi anche visualizzare e gestire tutti i modelli caricati in Model Registry.

Vai a Model Registry

Nel registro dei modelli, un modello ottimizzato viene classificato come Modello di grandi dimensioni e ha etichette che specificano il modello di base e la pipeline o il job di ottimizzazione utilizzato per l'ottimizzazione.

I modelli di cui viene eseguito il deployment con il pulsante Esegui il deployment indicheranno Model Garden come Source. Tieni presente che, se il modello viene aggiornato in Model Garden, il modello caricato in Model Registry non viene aggiornato.

Per ulteriori informazioni, consulta Introduzione a Vertex AI Model Registry.

Visualizzare o gestire un endpoint

Per visualizzare e gestire l'endpoint, vai alla pagina Previsione online di Vertex AI. Per impostazione predefinita, il nome dell'endpoint è uguale a quello del modello.

Vai alla previsione online

Per saperne di più, consulta Eseguire il deployment di un modello in un endpoint.

Monitorare il traffico dell'endpoint del modello

Per scoprire come monitorare il traffico dell'endpoint del modello, consulta Monitorare i modelli.

Limitazioni

  • Un modello Gemini ottimizzato può essere implementato solo in un endpoint pubblico condiviso. Il deployment su endpoint pubblici dedicati, endpoint Private Service Connect ed endpoint privati non è supportato.

Prezzi

Per i modelli ottimizzati, la fatturazione avviene per token alla stessa tariffa del modello di base da cui è stato ottimizzato il modello. L'endpoint non ha costi perché il tuning viene implementato come un piccolo adattatore sopra il modello di base. Per ulteriori informazioni, consulta i prezzi dell'AI generativa su Vertex AI.

Per i modelli senza API gestite, ti vengono addebitate le ore macchina utilizzate dal tuo endpoint alla stessa tariffa delle previsioni online di Vertex AI. Non ti viene addebitato alcun costo per token. Per saperne di più, consulta la sezione Prezzi per le previsioni in Vertex AI.

Passaggi successivi