Panoramica dei modelli multimodali


  • Prova la miniatura Gemini
    Prova l'API Gemini

    Dopo la configurazione su Google Cloud, prova alcuni prompt multimodali in Vertex AI Studio o in un tutorial sul blocco note utilizzando l'SDK Python o l'API REST.

  • Miniatura di riferimento dell'API Gemini
    Riferimento API Vertex AI Gemini

    Scopri gli endpoint, i parametri e i valori restituiti dell'API Vertex AI Gemini.

  • Miniatura dei prompt multimodali Gemini
    Progettazione di prompt multimodali

    Scopri le best practice per la progettazione di prompt multimodali e visualizza prompt di esempio.


Modelli multimodali

Prompt Risposta

Dammi una ricetta per questi biscotti.


Cookie
**INGREDIENTI**
- 1 c. (2 panetti) di burro non salato, ammortizzato
- 3/4 di c. di zucchero semolato
- 3/4 di c. di zucchero di canna, confezionato
- 1 cucchiaino . estratto di vaniglia
- 2 uova grandi
- 2 1/4 di farina multiuso
- 1 cucchiaino di bicarbonato di sodio
- 1 cucchiaino di sale
...

Un modello multimodale è in grado di elaborare le informazioni da più modalità, tra cui immagini, video e testo. Ad esempio, puoi inviare al modello la foto di un piatto di biscotti e chiedergli di darti una ricetta.

Modelli Gemini

Sono disponibili i seguenti modelli Gemini:

  • Gemini 1.5 Pro: (Anteprima) creato per essere multimodale (testo, immagini, audio, PDF, codice, video) e per scalare in una vasta gamma di attività con un massimo di 1 milione di token di input.
  • Gemini 1.0 Pro: progettato per gestire attività in linguaggio naturale, chat di testo e codice in multiturno e generazione di codice.
  • Gemini 1.0 Pro Vision: supporta i prompt multimodali. Puoi includere testo, immagini e video nelle richieste di prompt e ricevere risposte testuali o in codice.

Casi d'uso di Gemini 1.5 Pro

Gemini 1.5 Pro (anteprima) supporta la generazione di testo da un prompt che include una o una combinazione delle seguenti modalità in un prompt: testo, codice, PDF, immagini, audio, video. I suoi casi d'uso includono, a titolo esemplificativo:

Caso d'uso Descrizione
Riassunto Crea una versione più breve di un documento che incorpori informazioni pertinenti tratte dal testo originale. Ad esempio, potresti voler riassumere un capitolo di un libro di testo. In alternativa, puoi creare una descrizione concisa del prodotto a partire da un lungo paragrafo, che descriva dettagliatamente il prodotto.
Ricerca di informazioni visive Usa conoscenze esterne combinate con informazioni estratte dall'immagine o dal video di input per rispondere alle domande.
Riconoscimento degli oggetti Rispondere a domande relative all'identificazione granulare degli oggetti nelle immagini e nei video.
Comprensione dei contenuti digitali Rispondi alle domande ed estrai informazioni da contenuti visivi come infografiche, grafici, figure, tabelle e pagine web.
Generazione di contenuti strutturati Genera risposte basate su input multimodali in formati come HTML e JSON.
Sottotitoli codificati e descrizioni Genera descrizioni di immagini e video con diversi livelli di dettaglio.
Contenuti nel formato lungo Puoi elaborare contenuti nel formato lungo, fino a 1 milione di token per testo, codice, immagine, video e audio.
ragionamento Deduzione della composizione delle nuove informazioni senza memorizzazione o recupero.
Audio Analizza i file di contenuti vocali per il riepilogo, la trascrizione e le sessioni di domande e risposte.
Audio e video Riassumi un file video con audio e restituisce i capitoli con i timestamp.
Elaborazione multimodale Elabora contemporaneamente più tipi di contenuti multimediali di input, ad esempio input audio e video.

Casi d'uso di Gemini 1.0 Pro

Gemini 1.0 Pro supporta la generazione di testo e codice da un prompt di testo. I relativi casi d'uso includono, a titolo esemplificativo:

Caso d'uso Descrizione
Riassunto Crea una versione più breve di un documento che incorpori informazioni pertinenti tratte dal testo originale. Ad esempio, potresti voler riassumere un capitolo di un libro di testo. In alternativa, puoi creare una descrizione concisa del prodotto a partire da un lungo paragrafo, che descriva dettagliatamente il prodotto.
Risposta alle domande Fornisci risposte alle domande nel testo. Ad esempio, potresti automatizzare la creazione di un documento di domande frequenti dai contenuti della knowledge base.
Comprensione dei contenuti digitali Assegna un'etichetta al testo fornito. Ad esempio, potrebbe essere applicata un'etichetta a un testo che ne descrive la correttezza grammaticalmente.
Classificazione Assegna un'etichetta che descriva il testo fornito. Ad esempio, applica etichette che descrivono se un blocco di testo è grammaticalmente corretto.
Ricerca di informazioni Combina la conoscenza del mondo con le informazioni estratte dalle immagini e dai video.
Riconoscimento degli oggetti Rispondi a domande relative all'identificazione granulare degli oggetti nelle immagini e nei video.
Analisi del sentiment Questa è una forma di classificazione che identifica il sentiment del testo. Il sentiment viene convertito in un'etichetta che viene applicata al testo. Ad esempio, il sentiment del testo potrebbe essere rappresentato da polarità come positivo o negativo oppure da sentimenti come rabbia o felicità.
Estrazione delle entità Genera testi specificando un insieme di requisiti e background. Ad esempio, potresti voler scrivere la bozza di un'email in un determinato contesto utilizzando un determinato tono.
Generazione del codice Genera il codice in base a una descrizione. Ad esempio, puoi chiedere al modello di scrivere una funzione che verifichi se un anno è bisestile.

Casi d'uso di Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision supporta la generazione di testo utilizzando testo, immagini e video come input. I suoi casi d'uso includono, a titolo esemplificativo:

Caso d'uso Descrizione
Ricerca di informazioni Combina la conoscenza del mondo con le informazioni estratte dalle immagini e dai video.
Riconoscimento degli oggetti Rispondi a domande relative all'identificazione granulare degli oggetti nelle immagini e nei video.
Comprensione dei contenuti digitali Rispondi alle domande estraendo informazioni da contenuti come infografiche, grafici, figure, tabelle e pagine web.
Generazione di contenuti strutturati Genera risposte in formati come HTML e JSON in base alle istruzioni del prompt fornite.
Sottotitoli codificati / descrizione Genera descrizioni di immagini e video con diversi livelli di dettaglio.
estrapolazione Fai supposizioni su cosa non viene mostrato in un'immagine o su cosa succede prima o dopo un video.
Rilevamento di oggetti fotografici Rileva un oggetto in un'immagine e restituisce una descrizione testuale dell'oggetto.
Restituire informazioni sugli articoli in un'immagine Utilizza un'immagine che contiene più articoli alimentari in modo che Gemini 1.0 Pro Vision possa restituire una stima di quanto dovresti pagare.
Informazioni su schermate e interfacce Estrae informazioni da schermate, interfacce utente e layout dell'appliance. Ad esempio, puoi utilizzare l'immagine di un'appliance con Gemini 1.0 Pro Vision per ricevere istruzioni sull'utilizzo dell'appliance.
Comprendere i diagrammi tecnici Decifra un diagramma della relazione di entità (ER), comprendi le relazioni tra le tabelle e identifica i requisiti per l'ottimizzazione in un ambiente specifico come BigQuery.
Creare un consiglio basato su più immagini Potresti usare foto di occhiali per ottenere un consiglio su quello che si adatta meglio al tuo viso.
Generare una descrizione per il video Rileva ciò che viene mostrato in un video. Ad esempio, puoi fornire un video di una destinazione per le vacanze, ottenere una descrizione della destinazione, le 5 cose principali da fare e suggerimenti su come raggiungerla.

Per scoprire di più su come progettare prompt per vari utilizzi, consulta le seguenti pagine:

Vedi anche: Punti di forza e limitazioni del modello

SDK dei linguaggi di programmazione

L'API Vertex AI Gemini supporta i seguenti SDK:

Python

from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")

response = model.generate_content(["What is this?", img])

Node.js

// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});

const result = await model.generateContent([
  "What is this?",
  {inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);

Java

public static void main(String[] args) throws Exception {
  try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
    GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
  List<Content> contents = new ArrayList<>();
  contents.add(ContentMaker
                .fromMultiModalData(
                    "What is this?",
                    PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
  GenerateContentResponse response = model.generateContent(contents);
    }
  }
}

Go

model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)

Qual è la differenza rispetto all'API Google AI Gemini

L'API Vertex AI Gemini e l'API Google AI Gemini consentono entrambe di incorporare le funzionalità dei modelli Gemini nelle tue applicazioni. La piattaforma adatta a te dipende dai tuoi obiettivi.

L'API Vertex AI Gemini è progettata per sviluppatori e aziende per l'utilizzo in deployment su vasta scala. Offre funzionalità come sicurezza aziendale, residenza dei dati, prestazioni e assistenza tecnica. Se sei già cliente Google Cloud o esegui il deployment di applicazioni su scala medio-grande, sei nel posto giusto.

Se hai hobby, studenti o sviluppatori che non hai mai utilizzato Google Cloud, prova l'API Google AI Gemini, adatta per la sperimentazione, la prototipazione e deployment di dimensioni ridotte. Se stai cercando un modo per utilizzare Gemini direttamente dalle app web e mobile, consulta gli SDK IA di Google per Android, Swift e web.

Documentazione dell'API Vertex AI Gemini

Seleziona uno dei seguenti argomenti per saperne di più sull'API Vertex AI Gemini.

Inizia a utilizzare l'API Vertex AI Gemini


Esegui la migrazione all'API Vertex AI Gemini


Scopri come usare le funzionalità principali