-
Prova l'API Gemini
Dopo la configurazione su Google Cloud, prova alcuni prompt multimodali in Vertex AI Studio o in un tutorial sul blocco note utilizzando l'SDK Python o l'API REST.
-
Riferimento API Vertex AI Gemini
Scopri gli endpoint, i parametri e i valori restituiti dell'API Vertex AI Gemini.
-
Progettazione di prompt multimodali
Scopri le best practice per la progettazione di prompt multimodali e visualizza prompt di esempio.
Modelli multimodali
Prompt | Risposta |
Dammi una ricetta per questi biscotti. |
**INGREDIENTI** - 1 c. (2 panetti) di burro non salato, ammortizzato - 3/4 di c. di zucchero semolato - 3/4 di c. di zucchero di canna, confezionato - 1 cucchiaino . estratto di vaniglia - 2 uova grandi - 2 1/4 di farina multiuso - 1 cucchiaino di bicarbonato di sodio - 1 cucchiaino di sale ... |
Un modello multimodale è in grado di elaborare le informazioni da più modalità, tra cui immagini, video e testo. Ad esempio, puoi inviare al modello la foto di un piatto di biscotti e chiedergli di darti una ricetta.
Modelli Gemini
Sono disponibili i seguenti modelli Gemini:
- Gemini 1.5 Pro: (Anteprima) creato per essere multimodale (testo, immagini, audio, PDF, codice, video) e per scalare in una vasta gamma di attività con un massimo di 1 milione di token di input.
- Gemini 1.0 Pro: progettato per gestire attività in linguaggio naturale, chat di testo e codice in multiturno e generazione di codice.
- Gemini 1.0 Pro Vision: supporta i prompt multimodali. Puoi includere testo, immagini e video nelle richieste di prompt e ricevere risposte testuali o in codice.
Casi d'uso di Gemini 1.5 Pro
Gemini 1.5 Pro (anteprima) supporta la generazione di testo da un prompt che include una o una combinazione delle seguenti modalità in un prompt: testo, codice, PDF, immagini, audio, video. I suoi casi d'uso includono, a titolo esemplificativo:
Caso d'uso | Descrizione |
---|---|
Riassunto | Crea una versione più breve di un documento che incorpori informazioni pertinenti tratte dal testo originale. Ad esempio, potresti voler riassumere un capitolo di un libro di testo. In alternativa, puoi creare una descrizione concisa del prodotto a partire da un lungo paragrafo, che descriva dettagliatamente il prodotto. |
Ricerca di informazioni visive | Usa conoscenze esterne combinate con informazioni estratte dall'immagine o dal video di input per rispondere alle domande. |
Riconoscimento degli oggetti | Rispondere a domande relative all'identificazione granulare degli oggetti nelle immagini e nei video. |
Comprensione dei contenuti digitali | Rispondi alle domande ed estrai informazioni da contenuti visivi come infografiche, grafici, figure, tabelle e pagine web. |
Generazione di contenuti strutturati | Genera risposte basate su input multimodali in formati come HTML e JSON. |
Sottotitoli codificati e descrizioni | Genera descrizioni di immagini e video con diversi livelli di dettaglio. |
Contenuti nel formato lungo | Puoi elaborare contenuti nel formato lungo, fino a 1 milione di token per testo, codice, immagine, video e audio. |
ragionamento | Deduzione della composizione delle nuove informazioni senza memorizzazione o recupero. |
Audio | Analizza i file di contenuti vocali per il riepilogo, la trascrizione e le sessioni di domande e risposte. |
Audio e video | Riassumi un file video con audio e restituisce i capitoli con i timestamp. |
Elaborazione multimodale | Elabora contemporaneamente più tipi di contenuti multimediali di input, ad esempio input audio e video. |
Casi d'uso di Gemini 1.0 Pro
Gemini 1.0 Pro supporta la generazione di testo e codice da un prompt di testo. I relativi casi d'uso includono, a titolo esemplificativo:
Caso d'uso | Descrizione |
---|---|
Riassunto | Crea una versione più breve di un documento che incorpori informazioni pertinenti tratte dal testo originale. Ad esempio, potresti voler riassumere un capitolo di un libro di testo. In alternativa, puoi creare una descrizione concisa del prodotto a partire da un lungo paragrafo, che descriva dettagliatamente il prodotto. |
Risposta alle domande | Fornisci risposte alle domande nel testo. Ad esempio, potresti automatizzare la creazione di un documento di domande frequenti dai contenuti della knowledge base. |
Comprensione dei contenuti digitali | Assegna un'etichetta al testo fornito. Ad esempio, potrebbe essere applicata un'etichetta a un testo che ne descrive la correttezza grammaticalmente. |
Classificazione | Assegna un'etichetta che descriva il testo fornito. Ad esempio, applica etichette che descrivono se un blocco di testo è grammaticalmente corretto. |
Ricerca di informazioni | Combina la conoscenza del mondo con le informazioni estratte dalle immagini e dai video. |
Riconoscimento degli oggetti | Rispondi a domande relative all'identificazione granulare degli oggetti nelle immagini e nei video. |
Analisi del sentiment | Questa è una forma di classificazione che identifica il sentiment del testo. Il sentiment viene convertito in un'etichetta che viene applicata al testo. Ad esempio, il sentiment del testo potrebbe essere rappresentato da polarità come positivo o negativo oppure da sentimenti come rabbia o felicità. |
Estrazione delle entità | Genera testi specificando un insieme di requisiti e background. Ad esempio, potresti voler scrivere la bozza di un'email in un determinato contesto utilizzando un determinato tono. |
Generazione del codice | Genera il codice in base a una descrizione. Ad esempio, puoi chiedere al modello di scrivere una funzione che verifichi se un anno è bisestile. |
Casi d'uso di Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision supporta la generazione di testo utilizzando testo, immagini e video come input. I suoi casi d'uso includono, a titolo esemplificativo:
Caso d'uso | Descrizione |
---|---|
Ricerca di informazioni | Combina la conoscenza del mondo con le informazioni estratte dalle immagini e dai video. |
Riconoscimento degli oggetti | Rispondi a domande relative all'identificazione granulare degli oggetti nelle immagini e nei video. |
Comprensione dei contenuti digitali | Rispondi alle domande estraendo informazioni da contenuti come infografiche, grafici, figure, tabelle e pagine web. |
Generazione di contenuti strutturati | Genera risposte in formati come HTML e JSON in base alle istruzioni del prompt fornite. |
Sottotitoli codificati / descrizione | Genera descrizioni di immagini e video con diversi livelli di dettaglio. |
estrapolazione | Fai supposizioni su cosa non viene mostrato in un'immagine o su cosa succede prima o dopo un video. |
Rilevamento di oggetti fotografici | Rileva un oggetto in un'immagine e restituisce una descrizione testuale dell'oggetto. |
Restituire informazioni sugli articoli in un'immagine | Utilizza un'immagine che contiene più articoli alimentari in modo che Gemini 1.0 Pro Vision possa restituire una stima di quanto dovresti pagare. |
Informazioni su schermate e interfacce | Estrae informazioni da schermate, interfacce utente e layout dell'appliance. Ad esempio, puoi utilizzare l'immagine di un'appliance con Gemini 1.0 Pro Vision per ricevere istruzioni sull'utilizzo dell'appliance. |
Comprendere i diagrammi tecnici | Decifra un diagramma della relazione di entità (ER), comprendi le relazioni tra le tabelle e identifica i requisiti per l'ottimizzazione in un ambiente specifico come BigQuery. |
Creare un consiglio basato su più immagini | Potresti usare foto di occhiali per ottenere un consiglio su quello che si adatta meglio al tuo viso. |
Generare una descrizione per il video | Rileva ciò che viene mostrato in un video. Ad esempio, puoi fornire un video di una destinazione per le vacanze, ottenere una descrizione della destinazione, le 5 cose principali da fare e suggerimenti su come raggiungerla. |
Per scoprire di più su come progettare prompt per vari utilizzi, consulta le seguenti pagine:
- Prompt multimodali
- Prompt di testo
- Prompt di chat
- Prompt di chat di codice
- Prompt di generazione del codice
Vedi anche: Punti di forza e limitazioni del modello
SDK dei linguaggi di programmazione
L'API Vertex AI Gemini supporta i seguenti SDK:
Python
from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")
response = model.generate_content(["What is this?", img])
Node.js
// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});
const result = await model.generateContent([
"What is this?",
{inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);
Java
public static void main(String[] args) throws Exception {
try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
List<Content> contents = new ArrayList<>();
contents.add(ContentMaker
.fromMultiModalData(
"What is this?",
PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
GenerateContentResponse response = model.generateContent(contents);
}
}
}
Go
model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)
Qual è la differenza rispetto all'API Google AI Gemini
L'API Vertex AI Gemini e l'API Google AI Gemini consentono entrambe di incorporare le funzionalità dei modelli Gemini nelle tue applicazioni. La piattaforma adatta a te dipende dai tuoi obiettivi.
L'API Vertex AI Gemini è progettata per sviluppatori e aziende per l'utilizzo in deployment su vasta scala. Offre funzionalità come sicurezza aziendale, residenza dei dati, prestazioni e assistenza tecnica. Se sei già cliente Google Cloud o esegui il deployment di applicazioni su scala medio-grande, sei nel posto giusto.
Se hai hobby, studenti o sviluppatori che non hai mai utilizzato Google Cloud, prova l'API Google AI Gemini, adatta per la sperimentazione, la prototipazione e deployment di dimensioni ridotte. Se stai cercando un modo per utilizzare Gemini direttamente dalle app web e mobile, consulta gli SDK IA di Google per Android, Swift e web.
Documentazione dell'API Vertex AI Gemini
Seleziona uno dei seguenti argomenti per saperne di più sull'API Vertex AI Gemini.
Inizia a utilizzare l'API Vertex AI Gemini
-
Configurazione su Google Cloud
Se non hai mai utilizzato Google Cloud, segui i passaggi di configurazione riportati in questa pagina per iniziare rapidamente.
-
Classi dell'SDK Python per l'API Gemini
Scopri di più sulle classi fornite dall'SDK Python per l'API Vertex AI Gemini, inclusi attributi, metodi ed esempi di utilizzo.
-
Riferimento SDK Python
Consulta il riferimento completo sull'IA generativa per l'SDK Vertex AI per Python.
Esegui la migrazione all'API Vertex AI Gemini
-
Eseguire la migrazione dall'IA di Google a Vertex AI
Scopri come eseguire la migrazione del tuo codice Python dall'API Google AI Gemini all'API Vertex AI Gemini.
-
Eseguire la migrazione dall'API PaLM all'API Gemini
Scopri come eseguire la migrazione del codice Python dall'API Vertex AI PaLM all'API Vertex AI Gemini.
Scopri come usare le funzionalità principali
-
Inviare richieste di prompt multimodali
Scopri come inviare richieste di prompt multimodali utilizzando la console Cloud, l'SDK Python o l'API REST.
-
Inviare richieste di richieste di chat
Scopri come inviare prompt di chat a turno singolo e multi-turno utilizzando la console Cloud, l'SDK Python o l'API REST.
-
Chiamate di funzione
Scopri come far sì che il modello generi JSON per le chiamate a funzioni esterne.