Panoramica dell'API Gemini in Vertex AI



Modelli multimodali Gemini

Un modello multimodale è un modello in grado di elaborare informazioni provenienti da più modalità, tra cui immagini, video e testo. Ad esempio, puoi inviare al modello la foto di un piatto di biscotti e chiedergli di fornirti una ricetta.

Modelli Gemini

Sono disponibili i seguenti modelli Gemini:

  • Gemini 1.5 Flash: il modello multimodale Gemini più veloce ed economico. È progettato per attività a basso costo, con volumi elevati e applicazioni sensibili alla latenza. Poiché Gemini 1.5 Flash è più reattivo di altri modelli che costano di più, è una buona opzione per creare assistenti per la chat e applicazioni per la generazione di contenuti on demand.
  • Gemini 1.5 Pro: creato per essere multimodale (testo, immagini, audio, PDF, codice, video) e per scalare in un'ampia gamma di attività con un massimo di 1 milione di token di input.
  • Gemini 1.0 Pro: progettato per gestire attività di elaborazione del linguaggio naturale, chat di testo e codice in più passaggi e generazione di codice.
  • Gemini 1.0 Pro Vision: supporta prompt multimodali. Puoi includere testo, immagini e video nelle tue richieste di prompt e ottenere risposte di testo o codice.

Casi d'uso di Gemini 1.5 Pro e Gemini 1.5 Flash

Gemini 1.5 Pro e Gemini 1.5 Flash supportano la generazione di testo da un prompt che include una delle seguenti modalità o una combinazione delle seguenti modalità in un prompt: testo, codice, PDF, immagini, audio, video. Questi casi d'uso includono, a titolo esemplificativo:

Caso d'uso Descrizione
Riassunto Crea una versione più breve di un documento che includa informazioni pertinenti del testo originale. Ad esempio, potresti voler riassumere un capitolo di un libro di testo. In alternativa, puoi creare una descrizione concisa del prodotto da un lungo paragrafo che descrive dettagliatamente il prodotto.
Ricerca di informazioni visive Utilizza conoscenze esterne combinate con quelle estratte dall'immagine o dal video di input per rispondere alle domande.
Riconoscimento degli oggetti Rispondere a domande relative all'identificazione granulare degli oggetti nelle immagini e nei video.
Comprensione dei contenuti digitali Rispondi alle domande ed estrai informazioni da contenuti visivi come infografiche, grafici, figure, tabelle e pagine web.
Generazione di contenuti strutturati Genera risposte basate su input multimodali in formati come HTML e JSON.
Sottotitoli e descrizione Genera descrizioni di immagini e video con diversi livelli di dettaglio.
Contenuti nel formato lungo Puoi elaborare contenuti nel formato lungo, fino a 1 milione di token tra testo, codice, immagini, video e audio.
Ragionamento Deduci in modo compositivo nuove informazioni senza memorizzarle o recuperarle.
Audio Analizza i file vocali per riassunti, trascrizione e domande e risposte.
Audio e video Riassumi un file video con l'audio e restituisci i capitoli con timestamp.
Elaborazione multimodale Elabora contemporaneamente più tipi di contenuti multimediali di input, come input video e audio.

Casi d'uso di Gemini 1.0 Pro

Gemini 1.0 Pro supporta la generazione di testo e codice da un prompt di testo. I suoi casi d'uso includono, a titolo esemplificativo:

Caso d'uso Descrizione
Riassunto Crea una versione più breve di un documento che includa informazioni pertinenti del testo originale. Ad esempio, potresti voler riassumere un capitolo di un libro di testo. In alternativa, puoi creare una descrizione concisa del prodotto da un lungo paragrafo che descrive dettagliatamente il prodotto.
Risposta alle domande Fornisci risposte testuali alle domande. Ad esempio, potresti automatizzare la creazione di un documento di domande frequenti dai contenuti della knowledge base.
Comprensione dei contenuti digitali Assegna un'etichetta al testo fornito. Ad esempio, potrebbe essere applicata un'etichetta al testo che descrive quanto sia grammaticalmente corretta.
Classificazione Assegna un'etichetta che descriva il testo fornito. Ad esempio, applica etichette che descrivono se un blocco di testo è grammaticalmente corretto.
Ricerca di informazioni Combina la conoscenza del mondo con le informazioni estratte dalle immagini e dai video.
Riconoscimento degli oggetti Rispondi alle domande relative all'identificazione granulare degli oggetti nelle immagini e nei video.
Analisi del sentiment È una forma di classificazione che identifica il sentiment del testo. Il sentiment viene convertito in un'etichetta applicata al testo. Ad esempio, il sentiment del testo potrebbe essere polarità come positivo o negativo o sentimenti come rabbia o felicità.
Estrazione di entità Genera testi specificando un insieme di requisiti e informazioni di base. Ad esempio, potresti voler scrivere la bozza di un'email in un determinato contesto utilizzando un determinato tono.
Generazione del codice Genera il codice in base a una descrizione. Ad esempio, puoi chiedere al modello di scrivere una funzione che verifichi se un anno è bisestile.

Casi d'uso di Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision supporta la generazione di testo utilizzando testo, immagini e video come input. I suoi casi d'uso includono, a titolo esemplificativo:

Caso d'uso Descrizione
Ricerca di informazioni Combina la conoscenza del mondo con le informazioni estratte dalle immagini e dai video.
Riconoscimento degli oggetti Rispondi alle domande relative all'identificazione granulare degli oggetti nelle immagini e nei video.
Comprensione dei contenuti digitali Rispondi alle domande estraendo informazioni da contenuti come infografiche, grafici, figure, tabelle e pagine web.
Generazione di contenuti strutturati Genera risposte in formati come HTML e JSON in base alle istruzioni del prompt fornite.
Sottotitoli / descrizioni Genera descrizioni di immagini e video con diversi livelli di dettaglio.
Estrapolazione Fare ipotesi su cosa non è mostrato in un'immagine o su cosa succede prima o dopo un video.
Rilevamento di oggetti fotografici Rileva un oggetto in un'immagine e restituisce una descrizione testuale dell'oggetto.
Restituire informazioni sugli articoli di un'immagine Se utilizzi un'immagine che contiene più articoli di generi alimentari, Gemini 1.0 Pro Vision può restituire una stima dell'importo da pagare.
Comprendere schermate e interfacce Estrai informazioni dalle schermate, dalle interfacce utente e dai layout dell'appliance. Ad esempio, puoi utilizzare l'immagine di un'appliance con Gemini 1.0 Pro Vision per ottenere istruzioni su come utilizzare l'appliance.
Comprendere i diagrammi tecnici Decriptare un diagramma di relazione delle entità (ER), comprendere le relazioni tra le tabelle, identificare i requisiti per l'ottimizzazione in un ambiente specifico come BigQuery.
Fornire un consiglio basato su più immagini Puoi usare foto di occhiali per darti un consiglio sull'abbinamento più adatto al tuo viso.
Generare una descrizione per il video Rilevare ciò che viene mostrato in un video. Ad esempio, fornisci un video di una destinazione per le vacanze, oltre a una descrizione della destinazione, alle 5 principali cose da fare nella località e a suggerimenti su come arrivarci.

Per scoprire di più su come progettare prompt per vari utilizzi, consulta le seguenti pagine:

Vedi anche: Limitazioni multimodali

SDK per i linguaggi di programmazione

L'API Gemini di Vertex AI fornisce SDK nei seguenti linguaggi:

Python

L'SDK Python è fornito nel pacchetto vertexai.

from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")
response = model.generate_content(["What is this?"])

Node.js

L'SDK Vertex AI per Node.js consente di utilizzare l'API Gemini in Vertex AI per creare funzionalità e applicazioni basate su AI.

// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});

const result = await model.generateContent([
  "What is this?",
  {inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);

Java

L'API Vertex AI per Java è fornita nell'artefatto google-cloud-vertexai.

public static void main(String[] args) throws Exception {
  try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
    GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
  List<Content> contents = new ArrayList<>();
  contents.add(ContentMaker
                .fromMultiModalData(
                    "What is this?",
                    PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
  GenerateContentResponse response = model.generateContent(contents);
  }
}

Go

L'SDK Go viene fornito nel pacchetto cloud.google.com/go/vertexai.

model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)

Puoi anche chiamare Gemini utilizzando la libreria OpenAI.

Differenze tra API Gemini in Vertex AI e API Gemini in Google AI Studio

L'API Gemini in Vertex AI e l'API Gemini in Google AI Studio ti consentono di incorporare le funzionalità dei modelli Gemini nelle tue applicazioni. La piattaforma giusta per te dipende dai tuoi obiettivi.

L'API Vertex AI Gemini è progettata per sviluppatori e aziende per essere utilizzata in deployment in scala. Offre funzionalità quali sicurezza aziendale, residenza dei dati, prestazioni e assistenza tecnica. Se sei già cliente Google Cloud o esegui il deployment di applicazioni di medie e grandi dimensioni, sei nel posto giusto.

Se non hai mai utilizzato Google Cloud per hobby, studente o sviluppatore, prova l'API Gemini dell'IA di Google, adatta alla sperimentazione, alla prototipazione e ai piccoli deployment. Se stai cercando un modo per utilizzare Gemini direttamente dalle tue app web e mobile, dai un'occhiata agli SDK Google AI per Android, Swift e Web.

Documentazione dell'API Gemini di Vertex AI

Seleziona uno degli argomenti seguenti per scoprire di più sull'API Gemini di Vertex AI.

Inizia a utilizzare l'API Gemini di Vertex AI


Esegui la migrazione all'API Gemini di Vertex AI


Scopri come utilizzare le funzionalità principali