English
Deutsch
Español – América Latina
Français
Indonesia
Italiano
Português – Brasil
中文 – 简体
日本語
한국어

Contattaci Inizia gratuitamente

Punti di forza e limiti del modello Gemini

Punti forti del modello Gemini

Di seguito sono riportati alcuni dei punti di forza multimodali dei modelli Gemini 1.0:

Caso d'uso	Descrizione
Ricerca di informazioni	Fondere la conoscenza del mondo con informazioni estratte da immagini e video.
Riconoscimento degli oggetti	Rispondere a domande relative all'identificazione granulare degli oggetti in immagini e video.
Comprensione dei contenuti digitali	Rispondere a domande ed estrarre informazioni da vari contenuti come infografiche, grafici, figure, tabelle e pagine web.
Generazione di contenuti strutturati	Generare risposte in formati quali HTML e JSON, in base alle istruzioni del prompt fornite.
Sottotitoli	Generare descrizioni di immagini e video con diversi livelli di dettaglio. Ti consigliamo di iniziare dai seguenti prompt per immagini e video e di continuare a partire da questi prompt per ottenere descrizioni più specifiche. Immagine: "Puoi scrivere una descrizione dell'immagine?" Video: "Puoi scrivere una descrizione di ciò che sta succedendo in questo video?"
Extrapolations - Oltre il limite	suggerendo altri contenuti da vedere in base alla località, cosa potrebbe succedere dopo, prima o tra un'immagine e l'altra o tra un video e l'altro, oltre a consentire utilizzi creativi come scrivere storie basate su input visivi.

Limitazioni dei Gemini

I modelli Gemini 1.0 presentano le seguenti limitazioni:

Limitazione	Descrizione
Ragionamento spaziale	Può avere difficoltà con una localizzazione precisa di oggetti/testo nelle immagini. Potrebbe essere meno preciso nella comprensione delle immagini ruotate.
Conteggio	Può fornire solo approssimazioni approssimative del conteggio degli oggetti, soprattutto per gli oggetti oscurati.
Comprendere i video di durata superiore	Possono supportare i video come modalità separata (diversa dalla semplice elaborazione delle singole immagini). Tuttavia, il modello riceve le informazioni da un insieme non contiguo di fotogrammi immagine, non dal video continuo stesso (e da nessun audio). Gemini inoltre non estrae informazioni oltre i due minuti del video. Per migliorare il rendimento dei video con contenuti ad alta densità, accorcia il video in modo che il modello acquisisca la maggior parte dei contenuti video.
Seguendo istruzioni complesse	Può avere difficoltà con attività che richiedono più passaggi di ragionamento. Valuta la possibilità di suddividere le istruzioni o fornire pochi esempi per una guida migliore.
Utilizzi medici	Non adatto per l'interpretazione di immagini mediche (ad es. raggi X e tomografia computerizzata) o per la consulenza medica.
Chat multi-turno (multimodale)	Non è addestrato per la funzionalità dei chatbot o per le risposte alle domande con un tono poco intuitivo, inoltre può funzionare in modo meno efficace nelle conversazioni a turni multipli.

Passaggi successivi

Per iniziare, vedi Testare prompt multimodali.

Salvo quando diversamente specificato, i contenuti di questa pagina sono concessi in base alla licenza Creative Commons Attribution 4.0, mentre gli esempi di codice sono concessi in base alla licenza Apache 2.0. Per ulteriori dettagli, consulta le norme del sito di Google Developers. Java è un marchio registrato di Oracle e/o delle sue consociate.

Ultimo aggiornamento 2024-03-20 UTC.