Esegui il deployment di modelli di AI generativa

Alcuni modelli di AI generativa, come Gemini, utilizzano API gestite e sono pronti ad accettare prompt senza deployment. Per un elenco dei modelli con API gestite, consulta API dei modelli di base.

Prima di eseguire il deployment di altri modelli di AI generativa in un endpoint, sono pronti ad accettare i prompt. Esistono due tipi di modelli generativi di cui è necessario eseguire il deployment:

Quando esegui il deployment di un modello su un endpoint, Vertex AI associa le risorse e un URI con il modello, in modo che possa gestire le richieste di prompt.

Esegui il deployment di un modello ottimizzato

I modelli ottimizzati vengono caricati automaticamente Vertex AI Model Registry e il deployment in un'istanza Vertex AI endpoint I modelli ottimizzati vengono visualizzati in Model Garden perché sono ottimizzati sulla base dei tuoi dati. Per ulteriori informazioni, vedi Panoramica dell'ottimizzazione del modello.

Quando l'endpoint è attivo, è pronto ad accettare richieste di prompt nel relativo URI. Il formato della chiamata API per un modello ottimizzato corrisponde a quello del modello di base da cui è stato eseguito l'ottimizzazione. Ad esempio, se il modello è ottimizzato su Gemini, i tuoi deve seguire l'API Gemini.

Assicurati di inviare richieste di prompt all'endpoint del modello ottimizzato anziché tramite un'API gestita. L'endpoint del modello ottimizzato è nel formato:

https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID

Per ottenere l'ID endpoint, vedi Visualizzare o gestire un endpoint.

Per ulteriori informazioni sulla formattazione delle richieste di prompt, consulta Riferimento API Model.

Esegui il deployment di un modello generativo che non ha un'API gestita

Per utilizzare un modello di Model Garden che non dispone di un API, devi caricare il modello in Model Registry eseguirne il deployment in un endpoint prima di poter inviare richieste di prompt. È simile a Caricamento e deployment di un modello con addestramento personalizzato per la previsione online. in Vertex AI.

Per eseguire il deployment di uno di questi modelli, vai in Model Garden e seleziona del modello di cui vuoi eseguire il deployment.

Vai a Model Garden

Ogni scheda del modello mostra una o più delle seguenti opzioni di deployment:

  • Pulsante Esegui il deployment: la maggior parte dei modelli generativi in Model Garden è disponibile un pulsante Deploy che ti guida attraverso il deployment in Vertex AI. Se non vedi il pulsante Esegui il deployment, vai al punto successivo.

    Per il deployment su Vertex AI, puoi anche scegliere tra Implementazione con un solo clic con le impostazioni consigliate o Avanzata e controlli granulari su come viene salvato il modello Model Registry e il cui deployment è stato eseguito l'endpoint Vertex AI.

  • Pulsante Apri blocco note: questa opzione apre un blocco note Jupyter. Ogni modello mostra questa opzione. Il blocco note Jupyter include istruzioni e di codice campione per caricare il modello in Model Registry, il deployment del modello in un endpoint e l'invio di una richiesta di prompt.

Una volta completato il deployment e quando l'endpoint è attivo, è pronto per l'accettazione alle richieste di prompt nel rispettivo URI. Il formato dell'API è predict e il formato di ogni instance nel corpo della richiesta dipende dal modello. Per ulteriori informazioni, consulta seguenti risorse:

Assicurati di disporre di una quota di macchine sufficiente per eseguire il deployment del modello. Per visualizzare quota corrente o richiedi una quota superiore, nella console Google Cloud, vai alla Quote.

Vai a Quote

Quindi, filtra in base al nome della quota Custom Model Serving per vedere le quote la previsione online. Per saperne di più, consulta Visualizzare e gestire le quote.

Visualizza o gestisci un modello

Per i modelli ottimizzati, puoi visualizzare il modello e il suo job di ottimizzazione nella scheda Ottimizza e Distill nella console Google Cloud.

Vai a Ottimizza e distilla

Puoi anche visualizzare e gestire tutti i modelli caricati in registro dei modelli.

Vai al registro dei modelli

In Model Registry, un modello ottimizzato viene classificato come Modello di grandi dimensioni e contiene etichette che specificano il modello di base e la pipeline o un job di ottimizzazione usato per l'ottimizzazione.

I modelli di cui viene eseguito il deployment con il pulsante Esegui il deployment indicheranno Model Garden. Source. Tieni presente che, se il modello viene aggiornato in Model Garden, in Model Registry non viene aggiornato.

Per saperne di più, consulta Introduzione a Vertex AI Model Registry.

Visualizza o gestisci un endpoint

Per visualizzare e gestire l'endpoint, vai a Vertex AI Pagina Previsione online. Per impostazione predefinita, il nome dell'endpoint corrisponde a quello il nome del modello.

Vai a Previsione online

Per ulteriori informazioni, consulta Deployment di un modello in un endpoint.

Prezzi

Per i modelli ottimizzati, la fatturazione per token viene applicata alla stessa tariffa di quella di base modello da cui è stato ottimizzato il modello. Non sono previsti costi per l'endpoint perché l'ottimizzazione viene implementata come un piccolo adattatore sopra il modello di base. Per per saperne di più, consulta i prezzi di Generative AI su Vertex AI.

Per i modelli senza API gestite, ti vengono addebitate le ore macchina usata dal tuo endpoint alla stessa velocità di Vertex AI online. per le previsioni. Non ti viene addebitato alcun costo per token. Per ulteriori informazioni, vedi per le previsioni in Vertex AI.

Passaggi successivi