Vertex AI supporta un elenco selezionato di modelli aperti come modelli gestiti. Questi modelli aperti possono essere utilizzati con Vertex AI come modello come servizio (MaaS) e sono offerti come API gestita. Quando utilizzi un modello open gestito, continui a inviare le richieste agli endpoint Vertex AI. I modelli aperti gestiti sono serverless, quindi non è necessario eseguire il provisioning o gestire l'infrastruttura.
I modelli open gestiti possono essere scoperti utilizzando Model Garden. Puoi anche eseguire il deployment dei modelli utilizzando Model Garden. Per ulteriori informazioni, consulta Esplora i modelli di AI in Model Garden.
Modelli aperti
I seguenti modelli aperti sono offerti come API gestite su Vertex AI Model Garden (MaaS):
Nome modello | Modalità | Descrizione | Guida rapida |
---|---|---|---|
gpt-oss 120B | Lingua | Un modello da 120 miliardi di parametri che offre prestazioni elevate per le attività di ragionamento. | Scheda del modello |
gpt-oss 20B | Lingua | Un modello da 20 miliardi di parametri ottimizzato per l'efficienza e l'implementazione su hardware di consumo e edge. | Scheda del modello |
Qwen3-Next-80B Thinking | Lingua, codice | Un modello della famiglia Qwen3-Next, specializzato nella risoluzione di problemi complessi e nel ragionamento approfondito. | Scheda del modello |
Qwen3-Next-80B Instruct | Lingua, codice | Un modello della famiglia Qwen3-Next, specializzato per l'esecuzione di comandi specifici. | Scheda del modello |
Qwen3 Coder | Lingua, codice | Un modello open-weight sviluppato per attività di sviluppo software avanzate. | Scheda del modello |
Qwen3 235B | Lingua | Un modello open-weight con una capacità di "pensiero ibrido" per passare dal ragionamento metodico alla conversazione rapida. | Scheda del modello |
DeepSeek-V3.1 | Lingua | Il modello ibrido di DeepSeek che supporta sia la modalità di pensiero che quella non di pensiero. | Scheda del modello |
DeepSeek R1 (0528) | Lingua | L'ultima versione del modello DeepSeek R1 di DeepSeek. | Scheda del modello |
Llama 4 Maverick 17B-128E | Lingua, Visione | Il modello Llama 4 più grande e potente, con capacità di programmazione, ragionamento e gestione delle immagini. Llama 4 Maverick 17B-128E è un modello multimodale che utilizza l'architettura Mixture-of-Experts (MoE) e la fusione anticipata. | Scheda del modello |
Llama 4 Scout 17B-16E | Lingua, Visione | Llama 4 Scout 17B-16E offre risultati all'avanguardia per la sua classe di dimensioni, superando le generazioni precedenti di Llama e altri modelli open source e proprietari in diversi benchmark. Llama 4 Scout 17B-16E è un modello multimodale che utilizza l'architettura Mixture-of-Experts (MoE) e la fusione anticipata. | Scheda del modello |
Llama 3.3 | Lingua | Llama 3.3 è un modello di 70 miliardi di parametri ottimizzato per le istruzioni solo testuali che offre prestazioni migliorate rispetto a Llama 3.1 70B e Llama 3.2 90B se utilizzato per applicazioni solo testuali. Inoltre, per alcune applicazioni, Llama 3.3 70B si avvicina alle prestazioni di Llama 3.1 405B. | Scheda del modello |
Llama 3.2 (anteprima) | Lingua, Visione | Un modello multimodale di medie dimensioni da 90 miliardi di parametri in grado di supportare il ragionamento sulle immagini, come l'analisi di grafici e diagrammi, nonché l'assegnazione di didascalie alle immagini. | Scheda del modello |
Llama 3.1 | Lingua |
Una raccolta di LLM multilingue ottimizzati per casi d'uso di dialoghi multilingue e che superano molti dei modelli di chat open source e chiusi disponibili nei benchmark comuni del settore. Llama 3.1 405B è disponibile pubblicamente (GA). Llama 3.1 8B e Llama 3.1 70B sono in anteprima. |
Scheda del modello |
I seguenti modelli di incorporamento aperti sono offerti come API gestite su Vertex AI Model Garden (MaaS):
Nome modello | Descrizione | Dimensioni di output | Lunghezza massima della sequenza | Lingue di testo supportate | Guida rapida |
---|---|---|---|---|---|
multilingual-e5-small | Parte della famiglia E5 di modelli di text embedding. La variante Small contiene 12 livelli. | Fino a 384 | 512 token | Lingue supportate | Scheda del modello |
multilingual-e5-large | Parte della famiglia E5 di modelli di text embedding. La variante Large contiene 24 livelli. | Fino a 1024 | 512 token | Lingue supportate | Scheda del modello |
Endpoint regionali e globali
Per gli endpoint regionali, le richieste vengono gestite dalla regione specificata. Nei casi in cui hai requisiti di residenza dei dati o se un modello non supporta l'endpoint globale, utilizza gli endpoint regionali.
Quando utilizzi l'endpoint globale, Google può elaborare e gestire le tue richieste da qualsiasi regione supportata dal modello che stai utilizzando. In alcuni casi, ciò potrebbe comportare una latenza maggiore. L'endpoint globale contribuisce a migliorare la disponibilità complessiva e a ridurre gli errori.
Non c'è differenza di prezzo con gli endpoint regionali quando utilizzi l'endpoint globale. Tuttavia, le quote degli endpoint globali e le funzionalità dei modelli supportati possono differire da quelle degli endpoint regionali. Per saperne di più, consulta la pagina del modello di terze parti correlato.
Specifica l'endpoint globale
Per utilizzare l'endpoint globale, imposta la regione su global
.
Ad esempio, l'URL della richiesta per un comando curl utilizza il seguente formato:
https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME
Per l'SDK Vertex AI, un endpoint regionale è il valore predefinito. Imposta la regione su GLOBAL
per utilizzare l'endpoint globale.
Limita l'utilizzo degli endpoint API globali
Per contribuire a imporre l'utilizzo di endpoint regionali, utilizza il vincolo delle policy dell'organizzazione constraints/gcp.restrictEndpointUsage
per bloccare le richieste all'endpoint API globale. Per saperne di più, consulta Limitare l'utilizzo
degli endpoint.
Concedere l'accesso degli utenti ai modelli open
Per abilitare i modelli aperti ed effettuare una richiesta di prompt, un Google Cloud amministratore deve impostare le autorizzazioni richieste e verificare che il criterio dell'organizzazione consenta l'utilizzo delle API richieste.
Impostare le autorizzazioni richieste per utilizzare i modelli open
Per utilizzare i modelli aperti sono necessari i seguenti ruoli e autorizzazioni:
Devi disporre del ruolo IAM (Identity and Access Management) Gestore entitlement approvvigionamento consumer. Chiunque abbia questo ruolo può attivare i modelli aperti in Model Garden.
Devi avere l'autorizzazione
aiplatform.endpoints.predict
. Questa autorizzazione è inclusa nel ruolo IAM Vertex AI User. Per ulteriori informazioni, consulta Utente Vertex AI e Controllo dell'accesso.
Console
Per concedere i ruoli IAM di Gestore entitlement approvvigionamento consumer a un utente, vai alla pagina IAM.
Nella colonna Entità, trova l'entità utente per cui vuoi attivare l'accesso ai modelli aperti, quindi fai clic su Modifica entità in quella riga.
Nel riquadro Modifica accesso, fai clic su
Aggiungi un altro ruolo.In Seleziona un ruolo, seleziona Consumer Procurement Entitlement Manager.
Nel riquadro Modifica accesso, fai clic su
Aggiungi un altro ruolo.In Seleziona un ruolo, seleziona Vertex AI User.
Fai clic su Salva.
gcloud
-
In the Google Cloud console, activate Cloud Shell.
Concedi il ruolo Gestore entitlement approvvigionamento consumer richiesto per attivare i modelli aperti in Model Garden
gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
Concedi il ruolo Vertex AI User che include l'autorizzazione
aiplatform.endpoints.predict
necessaria per effettuare richieste di prompt:gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/aiplatform.user
Sostituisci
PRINCIPAL
con l'identificatore del principal. L'identificatore assume la formauser|group|serviceAccount:email
odomain:domain
, ad esempiouser:cloudysanfrancisco@gmail.com
,group:admins@example.com
,serviceAccount:test123@example.domain.com
odomain:example.domain.com
.L'output è un elenco di associazioni di criteri che include quanto segue:
- members: - user:PRINCIPAL role: roles/roles/consumerprocurement.entitlementManager
Per saperne di più, consulta Concedere un singolo ruolo e
gcloud projects add-iam-policy-binding
.
Imposta il criterio dell'organizzazione per l'accesso al modello aperto
Per attivare i modelli aperti, i criteri dell'organizzazione devono consentire la seguente API: Cloud Commerce Consumer Procurement API - cloudcommerceconsumerprocurement.googleapis.com
Se la tua organizzazione imposta un criterio dell'organizzazione per
limitare l'utilizzo del servizio,
un amministratore dell'organizzazione deve verificare che
cloudcommerceconsumerprocurement.googleapis.com
sia consentito
impostando il criterio dell'organizzazione.
Inoltre, se hai un criterio dell'organizzazione che limita l'utilizzo dei modelli in Model Garden, il criterio deve consentire l'accesso ai modelli open. Per ulteriori informazioni, vedi Controllare l'accesso al modello.
Conformità normativa del modello aperto
Le certificazioni per l'AI generativa su Vertex AI continuano a essere applicate quando i modelli aperti vengono utilizzati come API gestita utilizzando Vertex AI. Se hai bisogno di dettagli sui modelli stessi, puoi trovare ulteriori informazioni nella scheda del modello corrispondente oppure puoi contattare il publisher del modello.
I tuoi dati vengono archiviati at-rest all'interno della regione o della multiregione selezionata per i modelli aperti su Vertex AI, ma la regionalizzazione del trattamento dei dati può variare. Per un elenco dettagliato degli impegni di trattamento dei dati dei modelli aperti, consulta Residenza dei dati per i modelli aperti.
I prompt dei clienti e le risposte del modello non vengono condivisi con terze parti quando si utilizza l'API Vertex AI, inclusi i modelli aperti. Google tratta i dati dei clienti solo in base alle istruzioni del cliente, come descritto in dettaglio nel nostro Addendum per il trattamento dei dati Cloud.