Descripción general de modelos multimodales


  • Miniatura de la prueba de Gemini
    Prueba la API de Gemini

    Después de configurar Google Cloud, prueba algunos prompts multimodales en Vertex AI Studio o en un instructivo de notebook con el SDK de Python o la API de REST.

  • Miniatura de referencia de la API de Gemini
    Referencia de la API de Vertex AI Gemini

    Obtén información sobre los extremos, parámetros y valores de retorno de la API de Gemini de Vertex AI.

  • Miniatura de prompts multimodales de Gemini
    Diseño de prompts multimodales

    Aprende las prácticas recomendadas para diseñar prompts multimodales y consulta ejemplos de prompts.


Modelos multimodales

Instrucción Respuesta

Dame una receta para estas cookies.


Cookies
**INGREDIENTES**
- 1 c. (2 barras) mantequilla sin sal, ablandada
- 3/4 t. azúcar granulado
- 3/4 t. azúcar morena, compacta
- 1 cdta. extracto de vainilla
- 2 huevos grandes
- 2 1/4 t. harina multipropósito
- 1 cdta. polvos de hornear
- 1 cdta. sal

Un modelo multimodal es un modelo que es capaz de procesar información de varias modalidades, lo que incluye imágenes, videos y texto. Por ejemplo, puedes enviar al modelo una foto de una bandeja de galletas y pedirle una receta para preparar esas galletas.

Modelos de Gemini

Los siguientes modelos de Gemini están disponibles:

  • Gemini 1.0 Pro: Se diseñó para controlar tareas de lenguaje natural, chat de texto y código de varios turnos, y generación de código.
  • Gemini 1.0 Pro Vision: Admite mensajes multimodales. Puedes incluir texto, imágenes y video en las solicitudes de prompts y obtener respuestas de texto o código.

Casos de uso de Gemini 1.0 Pro

Gemini 1.0 Pro admite la generación de texto y código a partir de un mensaje de texto. Sus casos prácticos incluyen, entre otros, los siguientes:

Caso de uso Descripción
Resúmenes Crea una versión más corta de un documento que incorpore la información pertinente del texto original. Por ejemplo, es posible que quieras resumir un capítulo de un libro de texto. O bien, puedes crear una descripción concisa del producto a partir de un párrafo extenso que describa el producto en detalle.
Búsqueda de respuestas Proporciona respuestas a preguntas en texto. Por ejemplo, puedes automatizar la creación de un documento de preguntas frecuentes desde el contenido de la base de conocimiento.
Comprensión del contenido digital Asigna una etiqueta al texto proporcionado. Por ejemplo, una etiqueta puede aplicarse a un texto que describa su corrección gramatical.
Clasificación Genera respuestas en formatos como HTML y JSON según las instrucciones del prompt proporcionado.
Búsqueda de información Combina los conocimientos del mundo con información extraída de las imágenes y los videos.
Reconocimiento de objetos Responder preguntas relacionadas con la identificación detallada de objetos en imágenes y videos.
Análisis de opiniones Esta es una forma de clasificación que identifica la opinión del texto. La opinión se convierte en una etiqueta que se aplica al texto. Por ejemplo, la opinión del texto puede tener opiniones como enojo o satisfacción, o polaridades como positivas o negativas.
Extracción de entidades Especifica un conjunto de requisitos y antecedentes para generar textos. Por ejemplo, es posible que quieras escribir un borrador de un correo electrónico en un contexto determinado con un tono específico.
Generación de código Genera un código en función de una descripción. Por ejemplo, puedes pedirle al modelo que escriba una función que verifique si un año es bisiesto.

Casos de uso de Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision admite la generación de texto a partir de texto, imágenes y video como entrada. Sus de uso incluyen, entre otros, los siguientes:

Caso de uso Descripción
Búsqueda de información Combina los conocimientos del mundo con información extraída de las imágenes y los videos.
Reconocimiento de objetos Responder preguntas relacionadas con la identificación detallada de objetos en imágenes y videos.
Comprensión del contenido digital Extrae información de contenido como infografías, gráficos, cifras, tablas y páginas web para responder preguntas.
Generación de contenido estructurado Genera respuestas en formatos como HTML y JSON según las instrucciones del prompt proporcionado.
Leyenda / descripción Genera descripciones de imágenes y videos con diferentes niveles de detalle.
Extrapolación Supón lo que no se muestra en una imagen o lo que sucede antes o después de un video.
Detección de objetos en fotos Detecta un objeto en una imagen y muestra una descripción de texto del objeto.
Mostrar información sobre los elementos de una imagen Usa una imagen que contenga varios artículos de supermercado y Gemini 1.0 Pro Vision puede mostrar una estimación de cuánto debes pagar por ellos.
Comprensión de interfaces y pantallas Extrae información de pantallas de dispositivos, interfaces de usuario y diseños. Por ejemplo, puedes usar una imagen de un dispositivo con Gemini 1.0 Pro Vision para obtener instrucciones sobre cómo usar el dispositivo.
Comprensión de diagramas técnicos Desencriptar un diagrama de relación de entidades (ER), comprender las relaciones entre tablas e identificar los requisitos de optimización en un entorno específico como BigQuery.
Hacer una recomendación basada en varias imágenes Puedes usar fotos de anteojos o lentes para obtener una recomendación sobre el que se adapta mejor a tu rostro.
Generar una descripción de video Detectar lo que se muestra en un video. Por ejemplo, proporciona un video de un destino de vacaciones, recibe una descripción del lugar, las 5 mejores cosas que hacer ahí y sugerencias sobre cómo llegar.

Si deseas obtener más información sobre cómo diseñar mensajes para varios usos, consulta las siguientes páginas:

Consulta también: Ventajas y limitaciones del modelo

SDK de lenguaje de programación

La API de Gemini de Vertex AI es compatible con los siguientes SDK:

Python

from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")

response = model.generate_content(["What is this?", img])

Node.js

// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});

const result = await model.generateContent([
  "What is this?",
  {inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);

Java

public static void main(String[] args) throws Exception {
  try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
    GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
  List<Content> contents = new ArrayList<>();
  contents.add(ContentMaker
                .fromMultiModalData(
                    "What is this?",
                    PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
  GenerateContentResponse response = model.generateContent(contents);
    }
  }
}

Go

model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)

¿Cuál es la diferencia con la API de Gemini de Google AI?

La API de Gemini de Vertex AI y la API de Gemini de Google AI te permiten incorporar las capacidades de los modelos de Gemini en tus aplicaciones. La plataforma adecuada para ti depende de tus objetivos.

La API de Gemini de Vertex AI está diseñada para desarrolladores y empresas para su uso en implementaciones a escala. Ofrece características como la seguridad empresarial, la residencia de datos, el rendimiento y la asistencia técnica. Si ya eres cliente de Google Cloud o implementas aplicaciones a escala mediana o grande, estás en el lugar correcto.

Si eres un aficionado, alumno o desarrollador que es nuevo en Google Cloud, prueba la API de Gemini de Google AI, que es adecuada para la experimentación, el prototipado y las implementaciones pequeñas. Si buscas una manera de usar Gemini directamente desde tus apps web y para dispositivos móviles, consulta los SDK de IA de Google para Android, Swift y Web.

Documentación de la API de Vertex Gemini de Vertex AI

Selecciona uno de los siguientes temas para obtener más información sobre la API de Vertex Gemini de Vertex AI.

Comienza a usar la API de Gemini de Vertex AI


Migra a la API de Gemini de Vertex AI


Aprende a usar las funciones principales