Risposte multimodali

Gemini 2.0 Flash supporta la generazione di risposte in più modalità, tra cui testo, parlato e immagini.

Generazione di testo

Gemini 2.0 Flash supporta la generazione di testo utilizzando la console Google Cloud, l'API REST e gli SDK supportati. Per ulteriori informazioni, consulta la nostra guida alla generazione di testo.

Sintesi vocale (accesso in anteprima/lista consentita)

Gemini 2.0 supporta una nuova funzionalità di generazione multimodale: la sintesi vocale. Utilizzando la funzionalità di sintesi vocale, puoi chiedere al modello di generare un output audio di alta qualità che suoni come una voce umana (say "hi everyone") e puoi perfezionare ulteriormente l'output modificando la voce.

Generazione di immagini (accesso in anteprima/lista consentita)

Gemini 2.0 supporta la possibilità di generare testo con immagini in linea. In questo modo, puoi utilizzare Gemini per modificare le immagini in modo conversazionale o generare output multimodali (ad esempio, un post del blog con testo e immagini in un unico turno). In precedenza, questo avrebbe richiesto l'unione di più modelli.

La generazione di immagini è disponibile come versione sperimentale privata. Supporta le seguenti modalità e funzionalità:

  • Da testo a immagine
    • Esempio di prompt: "Genera un'immagine della Torre Eiffel con fuochi d'artificio sullo sfondo".
  • Testo in immagini e testo (interlacciati)
    • Esempio di prompt: "Genera una ricetta illustrata per una paella. Crea immagini da affiancare al testo durante la generazione della ricetta."
  • Immagini e testo in immagini e testo (interlacciati)
    • Prompt di esempio: (con un'immagine di una stanza arredata) "Quali altri divani di colore andrebbero bene nel mio spazio? Puoi aggiornare l'immagine?"
  • Modifica delle immagini (da testo a immagine e da immagine a immagine)
    • Prompt di esempio: "Modifica questa immagine in modo che assomigli a un cartone animato"
    • Esempio di prompt: [immagine di un gatto] + [immagine di un cuscino] + "Crea un punto croce del mio gatto su questo cuscino".
  • Modifica di immagini in più turni (chat)
    • Prompt di esempio: [carica un'immagine di un'auto blu.] "Trasforma questa auto in un'auto cabrio." "Ora cambia il colore in giallo."
  • Filigrana
    • Tutte le immagini generate includono una filigrana SynthID.

Limitazioni:

  • La generazione di persone e l'editing di immagini di persone caricate non sono consentiti.
  • Per un rendimento ottimale, utilizza le seguenti lingue: EN, es-MX, ja-JP, zh-CN, hi-IN.
  • La generazione di immagini non supporta input audio o video.
  • La generazione di immagini potrebbe non essere sempre attivata:
    • Il modello potrebbe restituire solo testo. Prova a chiedere esplicitamente le uscite di immagini (ad es. "genera un'immagine", "fornisci le immagini man mano", "aggiorna l'immagine").
    • Il modello potrebbe interrompere la generazione a metà. Riprova o prova con un altro prompt.