IA mutimodale

Genera testo, codice, video, audio e immagini praticamente da qualsiasi tipo di contenuto

I modelli multimodali possono elaborare un'ampia varietà di input, tra cui testo, immagini e audio, come prompt e convertirli in vari output, non solo il tipo di sorgente.

I nuovi clienti ricevono fino a 300 $ di crediti gratuiti per provare modelli multimodali in Vertex AI e altri prodotti Google Cloud.

Panoramica

Qual è un esempio di IA multimodale?

Un modello multimodale è un modello di ML (machine learning) in grado di elaborare le informazioni da diverse modalità, tra cui immagini, video e testo. Ad esempio, il modello multimodale di Google, Gemini, può ricevere la foto di un piatto di biscotti e generare una ricetta scritta in risposta e viceversa.

Qual è la differenza tra IA generativa e IA multimodale?

IA generativa è un termine generico che indica l'uso di modelli di ML per creare nuovi contenuti, come testo, immagini, musica, audio e video, in genere a partire da un solo tipo di prompt. L'IA multimodale amplia queste capacità generative, elaborando informazioni da diverse modalità, tra cui immagini, video e testo. La multimodalità può essere considerata come la capacità dell'IA di elaborare e comprendere diverse modalità sensoriali. In pratica, questo significa che gli utenti non sono limitati a un tipo di input e di un tipo di output e possono richiedere a un modello con qualsiasi input di generare praticamente qualsiasi tipo di contenuto.

Cos'è un'IA che può utilizzare le immagini come prompt?

Gemini è un modello multimodale del team di Google DeepMind che può essere richiesto non solo con immagini, ma anche con testo, codice e video. Gemini è stato progettato interamente per ragionare su testi, immagini, video, audio e codice. Gemini su Vertex AI può anche utilizzare i prompt per estrarre testo dalle immagini, convertire il testo delle immagini in JSON e generare risposte sulle immagini caricate.

Qual è il futuro dell'IA multimodale e perché è importante?

L'IA multimodale e i modelli multimodali rappresentano un passo in avanti nel modo in cui gli sviluppatori creano ed espandono la funzionalità dell'IA nella prossima generazione di applicazioni. Ad esempio, Gemini è in grado di comprendere, spiegare e generare codice di alta qualità nei linguaggi di programmazione più popolari al mondo, come Python, Java, C++ e Go, consentendo agli sviluppatori di lavorare alla creazione di più applicazioni che ricche di funzionalità. Il potenziale dell'IA multimodale avvicina anche il mondo all'IA, che è meno come un software intelligente e più come un aiutante o un assistente esperto.

Quali sono i vantaggi dei modelli multimodali e dell'IA multimodale?

Il vantaggio dell'IA multimodale è che offre a sviluppatori e utenti un'IA con capacità di ragionamento, risoluzione dei problemi e generazione più avanzate. Questi progressi offrono infinite possibilità di come le applicazioni di nuova generazione possano cambiare il nostro modo di lavorare e vivere. Per gli sviluppatori che vogliono iniziare a creare, l'API Vertex AI Gemini offre funzionalità come sicurezza aziendale, residenza dei dati, prestazioni e assistenza tecnica. I clienti Google Cloud esistenti possono iniziare subito a creare prompt con Gemini in Vertex AI.

Come funziona

Un modello multimodale è in grado di comprendere ed elaborare praticamente qualsiasi input, combinando diversi tipi di informazioni e generando quasi tutti gli output. Ad esempio, utilizzando Vertex AI con Gemini, gli utenti possono richiedere testo, immagini, video o codice per generare tipi di contenuti diversi rispetto a quelli inseriti in origine.

Prompt multimodale che trasforma l'immagine dei biscotti in una ricetta in formato testo

Utilizzi comuni

Prova prompt multimodali

Invia un prompt a Gemini con testo, immagini e video

Testa il modello Gemini utilizzando linguaggio naturale, codice o immagini. Prova i prompt di esempio per estrarre il testo dalle immagini, convertire il testo delle immagini in formato JSON e persino generare risposte sulle immagini caricate per creare applicazioni IA di nuova generazione.

Prompt nella console
UI dei prompt di Vertex AI per modelli multimodali

Invia un prompt a Gemini con testo, immagini e video

Testa il modello Gemini utilizzando linguaggio naturale, codice o immagini. Prova i prompt di esempio per estrarre il testo dalle immagini, convertire il testo delle immagini in formato JSON e persino generare risposte sulle immagini caricate per creare applicazioni IA di nuova generazione.

Prompt nella console
UI dei prompt di Vertex AI per modelli multimodali

Utilizza modelli multimodali

Inizia a utilizzare Gemini, il modello multimodale di Google

Ottieni una panoramica dell'utilizzo del modello multimodale in Google Cloud, punti di forza e limitazioni di Gemini, informazioni su prompt e richieste, e numero di token.

Visualizza la documentazione
Prova l'API Gemini, il riferimento dell'API Vertex AI Gemini e la destinazione del prompt multimodale

Inizia a utilizzare Gemini, il modello multimodale di Google

Ottieni una panoramica dell'utilizzo del modello multimodale in Google Cloud, punti di forza e limitazioni di Gemini, informazioni su prompt e richieste, e numero di token.

Visualizza la documentazione
Prova l'API Gemini, il riferimento dell'API Vertex AI Gemini e la destinazione del prompt multimodale

Inizia la tua proof of concept

I nuovi clienti ricevono fino a 300 $ di crediti gratuiti per provare modelli multimodali in Vertex AI

Prova un prompt di esempio per testare le funzionalità multimodali di Gemini.

Progetta prompt multimodali

Esplora l'IA generativa in Vertex AI

Prova l'API Gemini Vertex AI

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
Console
Google Cloud