Gemini 2.0 Flash è ora disponibile come release di anteprima sperimentale tramite l'API Gemini di Vertex AI e Vertex AI Studio. Il modello introduce nuove funzionalità e funzionalità di base avanzate:
- API Multimodal Live:questa nuova API ti aiuta a creare applicazioni di streaming audio e video in tempo reale con l'utilizzo di strumenti.
- Velocità e prestazioni: Gemini 2.0 Flash ha un tempo di risposta al primo token (TTFT) notevolmente migliore rispetto a Gemini 1.5 Flash.
- Qualità: il modello mantiene una qualità paragonabile a quella dei modelli più grandi come Gemini 1.5 Pro.
- Esperienza con agenti migliorata: Gemini 2.0 offre miglioramenti alla comprensione multimodale, alla programmazione, all'esecuzione di istruzioni complesse e alla chiamata di funzioni. Questi miglioramenti agiscono in sinergia per offrire esperienze migliori agli agenti.
- Nuove modalità: Gemini 2.0 introduce la generazione di immagini native e funzionalità di sintesi vocale controllabili, che consentono la modifica delle immagini, la creazione di artwork localizzati e lo storytelling espressivo.
Per supportare il nuovo modello, stiamo anche rilasciando un nuovo SDK che supporta la migrazione semplice tra l'API Gemini per sviluppatori e l'API Gemini su Vertex AI.
Per i dettagli tecnici di Gemini 2.0, consulta Modelli Google.
SDK Google Gen AI (sperimentale)
Il nuovo SDK di IA generativa di Google fornisce un'interfaccia unificata a Gemini 2.0 tramite sia l'API Gemini per sviluppatori sia l'API Gemini su Vertex AI. A parte alcune eccezioni, il codice che viene eseguito su una piattaforma verrà eseguito su entrambe. Ciò significa che puoi creare un prototipo di un'applicazione utilizzando l'API per sviluppatori e poi eseguirne la migrazione a Vertex AI senza riscriverne il codice.
L'SDK Gen AI supporta anche i modelli Gemini 1.5.
Il nuovo SDK è disponibile in Python e Go, mentre Java e JavaScript saranno disponibili a breve.
Puoi iniziare a utilizzare l'SDK come mostrato di seguito.
- Installa il nuovo SDK:
pip install google-genai
- Poi importa la libreria, inizializza un client e genera contenuti:
from google import genai
# Replace the `project` and `location` values with appropriate values for
# your project.
client = genai.Client(
vertexai=True, project='YOUR_CLOUD_PROJECT', location='us-central1'
)
response = client.models.generate_content(
model='gemini-2.0-flash-exp', contents='How does AI work?'
)
print(response.text)
(Facoltativo) Imposta le variabili di ambiente
In alternativa, puoi inizializzare il client utilizzando le variabili di ambiente. Innanzitutto, imposta i valori appropriati ed esporta le variabili:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=YOUR_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True
Dopodiché puoi inizializzare il client senza argomenti:
client = genai.Client()
API Multimodal Live
L'API Multimodal Live consente interazioni vocali e video bidirezionali con latenza ridotta con Gemini. Con l'API Multimodal Live, puoi offrire agli utenti finali l'esperienza di conversazioni vocali naturali e simili a quelle umane, nonché la possibilità di interrompere le risposte del modello utilizzando i comandi vocali. Il modello può elaborare input di testo, audio e video e fornire output di testo e audio.
L'API Multimodal Live è disponibile nell'API Gemini come metodo BidiGenerateContent
ed è basata su WebSockets.
Per ulteriori informazioni, consulta la Guida di riferimento dell'API Live multimodale.
Per un esempio di conversione da testo a testo che ti aiuti a iniziare a utilizzare l'API Multimodal Live, consulta quanto segue:
from google import genai
client = genai.Client()
model_id = "gemini-2.0-flash-exp"
config = {"response_modalities": ["TEXT"]}
async with client.aio.live.connect(model=model_id, config=config) as session:
message = "Hello? Gemini, are you there?"
print("> ", message, "\n")
await session.send(message, end_of_turn=True)
async for response in session.receive():
print(response.text)
Funzionalità:
- Input audio con uscita audio
- Input audio e video con uscita audio
- Una selezione di voci; consulta le Voci dell'API Multimodal Live
- Durata della sessione fino a 15 minuti per l'audio o fino a 2 minuti di audio e video
Per scoprire altre funzionalità dell'API Multimodal Live, consulta Funzionalità dell'API Multimodal Live.
Language:
- Solo in inglese
Limitazioni:
- Consulta le limitazioni dell'API Multimodal Live.
La ricerca come strumento
Utilizzando la funzionalità di grounding con la Ricerca Google, puoi migliorare l'accuratezza e l'aggiornamento delle risposte del modello. A partire da Gemini 2.0, la Ricerca Google è disponibile come strumento. Ciò significa che il modello può decidere quando utilizzare la Ricerca Google. L'esempio seguente mostra come configurare la Ricerca come strumento.
from google import genai
from google.genai.types import Tool, GenerateContentConfig, GoogleSearch
client = genai.Client()
model_id = "gemini-2.0-flash-exp"
google_search_tool = Tool(
google_search = GoogleSearch()
)
response = client.models.generate_content(
model=model_id,
contents="When is the next total solar eclipse in the United States?",
config=GenerateContentConfig(
tools=[google_search_tool],
response_modalities=["TEXT"],
)
)
for each in response.candidates[0].content.parts:
print(each.text)
# Example response:
# The next total solar eclipse visible in the contiguous United States will be on ...
# To get grounding metadata as web content.
print(response.candidates[0].grounding_metadata.search_entry_point.rendered_content)
La funzionalità Ricerca come strumento consente anche ricerche con più turni e query con più strumenti (ad esempio, la combinazione di grounding con la Ricerca Google e l'esecuzione di codice).
La ricerca come strumento consente prompt e flussi di lavoro complessi che richiedono pianificazione, ragionamento e pensiero:
- Basamento per migliorare la veridicità e l'attualità e fornire risposte più accurate
- Recupero di elementi dal web per eseguire ulteriori analisi
- Trovare immagini, video o altri contenuti multimediali pertinenti per supportare le attività di ragionamento o generazione multimodale
- Codifica, risoluzione di problemi tecnici e altre attività specializzate
- Trovare informazioni specifiche per regione o aiutare a tradurre i contenuti con precisione
- Trovare siti web pertinenti per ulteriori ricerche
Rilevamento del riquadro delimitatore
In questo lancio sperimentale, offriamo agli sviluppatori un potente strumento per il rilevamento e la localizzazione di oggetti all'interno di immagini e video. Identificando e delineando con precisione gli oggetti con le caselle delimitanti, gli sviluppatori possono accedere a una vasta gamma di applicazioni e migliorare l'intelligenza dei loro progetti.
Vantaggi principali:
- Semplice: integra facilmente le funzionalità di rilevamento degli oggetti nelle tue applicazioni, indipendentemente dalle tue competenze in materia di visione artificiale.
- Personalizzabile: genera riquadri di selezione in base a istruzioni personalizzate (ad es. "Voglio vedere i riquadri di selezione di tutti gli oggetti verdi in questa immagine"), senza dover addestrare un modello personalizzato.
Dettagli tecnici:
- Input: il prompt e le immagini o gli frame video associati.
- Output: riquadri di delimitazione nel formato
[y_min, x_min, y_max, x_max]
. L'angolo superior sinistro è l'origine. Gli assix
ey
vanno rispettivamente in orizzontale e verticalmente. I valori delle coordinate sono normalizzati in modo da avere come intervallo 0-1000 per ogni immagine. - Visualizzazione: gli utenti di AI Studio vedranno le caselle delimitanti tracciate all'interno dell'UI. Gli utenti di Vertex AI devono visualizzare i propri bounding box tramite codice di visualizzazione personalizzato.
Sintesi vocale (accesso in anteprima/lista consentita)
Gemini 2.0 supporta una nuova funzionalità di generazione multimodale: la sintesi vocale.
Utilizzando la funzionalità di sintesi vocale, puoi chiedere al modello di generare un output audio di alta qualità che suoni come una voce umana (say "hi everyone"
) e puoi perfezionare ulteriormente l'output modificando la voce.
Generazione di immagini (accesso in anteprima/lista consentita)
Gemini 2.0 supporta la possibilità di generare testo con immagini in linea. In questo modo, puoi utilizzare Gemini per modificare le immagini in modo conversazionale o generare output multimodali (ad esempio, un post del blog con testo e immagini in un unico turno). In precedenza, questo avrebbe richiesto l'unione di più modelli.
La generazione di immagini è disponibile come versione sperimentale privata. Supporta le seguenti modalità e funzionalità:
- Da testo a immagine
- Esempio di prompt: "Genera un'immagine della Torre Eiffel con fuochi d'artificio sullo sfondo".
- Testo in immagini e testo (interlacciati)
- Esempio di prompt: "Genera una ricetta illustrata per una paella".
- Immagini e testo in immagini e testo (interlacciati)
- Prompt di esempio: (con un'immagine di una stanza arredata) "Quali altri divani di colore andrebbero bene nel mio spazio? Puoi aggiornare l'immagine?"
- Modifica delle immagini (da testo a immagine e da immagine a immagine)
- Prompt di esempio: "Modifica questa immagine in modo che assomigli a un cartone animato"
- Esempio di prompt: [immagine di un gatto] + [immagine di un cuscino] + "Crea un punto croce del mio gatto su questo cuscino".
- Modifica di immagini in più turni (chat)
- Prompt di esempio: [carica un'immagine di un'auto blu.] "Trasforma questa auto in un'auto cabrio." "Ora cambia il colore in giallo."
- Filigrana
- Tutte le immagini generate includono una filigrana SynthID.
Limitazioni:
- La generazione di persone e l'editing di immagini di persone caricate non sono consentiti.
- Per un rendimento ottimale, utilizza le seguenti lingue: EN, es-MX, ja-JP, zh-CN, hi-IN.
- La generazione di immagini non supporta input audio o video.
- La generazione di immagini potrebbe non essere sempre attivata:
- Il modello potrebbe restituire solo testo. Prova a chiedere esplicitamente le uscite di immagini (ad es. "genera un'immagine", "fornisci le immagini man mano", "aggiorna l'immagine").
- Il modello potrebbe interrompere la generazione a metà. Riprova o prova con un altro prompt.
Prezzi
Non ti viene addebitato alcun costo per l'utilizzo dei modelli sperimentali di Google.