-
Prueba la API de Gemini en Vertex AI
Para comenzar, crea una cuenta de Google Cloud. Además, los clientes nuevos obtienen $300 en créditos gratuitos para explorar lo que puede hacer Gemini.
-
Referencia del SDK de Python para la API de Gemini en Vertex AI
Consulta la referencia completa de la IA generativa del SDK de Python para Vertex AI.
-
Diseño de prompts multimodales
Aprende las prácticas recomendadas para diseñar prompts multimodales y consulta ejemplos de prompts.
Modelos multimodales de Gemini
Un modelo multimodal es un modelo que es capaz de procesar información de varias modalidades, lo que incluye imágenes, videos y texto. Por ejemplo, puedes enviar al modelo una foto de una bandeja de galletas y pedirle una receta para preparar esas galletas.
Modelos de Gemini
Los siguientes modelos de Gemini están disponibles:
- Gemini 1.5 Flash (vista previa): El modelo multimodal de Gemini más rápido y rentable. Se diseñó para tareas de bajo costo y gran volumen, y aplicaciones sensibles a la latencia. Debido a que Gemini 1.5 Flash (vista previa) es más responsiva que otros modelos que cuestan más, es una buena opción para crear asistentes de chat y aplicaciones de generación de contenido a pedido.
- Gemini 1.5 Pro (Vista previa) Se creó para ser multimodal (texto, imágenes, audio, PDF, código y videos) y para escalar en una amplia rango de tareas con hasta 1 millón de tokens de entrada.
- Gemini 1.0 Pro: Se diseñó para controlar tareas de lenguaje natural, chat de texto y código de varios turnos, y generación de código.
- Gemini 1.0 Pro Vision: Admite mensajes multimodales. Puedes incluir texto, imágenes y video en las solicitudes de prompts y obtener respuestas de texto o código.
Casos de uso de Gemini 1.5 Pro (vista previa) y Gemini 1.5 Flash (vista previa)
Gemini 1.5 Pro (vista previa) y Gemini 1.5 Flash (vista previa) admiten la generación de texto a partir de un mensaje que incluye una de las siguientes modalidades, o una combinación de ellas, en una solicitud: texto, código, PDF, imágenes, audio y video. Sus casos de uso incluyen, entre otros, los siguientes:
Caso de uso | Descripción |
---|---|
Resúmenes | Crea una versión más corta de un documento que incorpore la información pertinente del texto original. Por ejemplo, es posible que quieras resumir un capítulo de un libro de texto. O bien, puedes crear una descripción concisa del producto a partir de un párrafo extenso que describa el producto en detalle. |
Búsqueda de información visual | Usa el conocimiento externo combinado con información extraída de la imagen o el video de entrada para responder preguntas. |
Reconocimiento de objetos | Responder preguntas relacionadas con la identificación detallada de objetos en imágenes y videos. |
Comprensión del contenido digital | Responde preguntas y extrae información de contenido visual como infografías, gráficos, cifras, tablas y páginas web. |
Generación de contenido estructurado | Genera respuestas basadas en entradas multimodales en formatos como HTML y JSON. |
Leyenda y descripción | Genera descripciones de imágenes y videos con diferentes niveles de detalle. |
Contenido de larga duración | Puedes procesar contenido de hasta 1 millón de tokens de texto, código, imagen, video y audio. |
Motivo | Infiere de manera comprobable información nueva sin memorización ni recuperación. |
Audio | Analiza archivos de voz para resúmenes, transcripciones y preguntas y respuestas. |
Audio y video | Resume un archivo de video con audio y muestra capítulos con marcas de tiempo. |
Procesamiento multimodal | Procesa varios tipos de medios de entrada al mismo tiempo, como entradas de audio y video. |
Casos de uso de Gemini 1.0 Pro
Gemini 1.0 Pro admite la generación de texto y código a partir de un mensaje de texto. Sus casos prácticos incluyen, entre otros, los siguientes:
Caso de uso | Descripción |
---|---|
Resúmenes | Crea una versión más corta de un documento que incorpore la información pertinente del texto original. Por ejemplo, es posible que quieras resumir un capítulo de un libro de texto. O bien, puedes crear una descripción concisa del producto a partir de un párrafo extenso que describa el producto en detalle. |
Búsqueda de respuestas | Proporciona respuestas a preguntas en texto. Por ejemplo, puedes automatizar la creación de un documento de preguntas frecuentes desde el contenido de la base de conocimiento. |
Comprensión del contenido digital | Asigna una etiqueta al texto proporcionado. Por ejemplo, una etiqueta puede aplicarse a un texto que describa su corrección gramatical. |
Clasificación | Asigna una etiqueta que describa el texto proporcionado. Por ejemplo, aplica etiquetas que describan si un bloque de texto es gramaticalmente correcto. |
Búsqueda de información | Combina los conocimientos del mundo con información extraída de las imágenes y los videos. |
Reconocimiento de objetos | Responder preguntas relacionadas con la identificación detallada de objetos en imágenes y videos. |
Análisis de opiniones | Esta es una forma de clasificación que identifica la opinión del texto. La opinión se convierte en una etiqueta que se aplica al texto. Por ejemplo, la opinión del texto puede tener opiniones como enojo o satisfacción, o polaridades como positivas o negativas. |
Extracción de entidades | Especifica un conjunto de requisitos y antecedentes para generar textos. Por ejemplo, es posible que quieras escribir un borrador de un correo electrónico en un contexto determinado con un tono específico. |
Generación de código | Genera un código en función de una descripción. Por ejemplo, puedes pedirle al modelo que escriba una función que verifique si un año es bisiesto. |
Casos de uso de Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision admite la generación de texto a partir de texto, imágenes y video como entrada. Sus de uso incluyen, entre otros, los siguientes:
Caso de uso | Descripción |
---|---|
Búsqueda de información | Combina los conocimientos del mundo con información extraída de las imágenes y los videos. |
Reconocimiento de objetos | Responder preguntas relacionadas con la identificación detallada de objetos en imágenes y videos. |
Comprensión del contenido digital | Extrae información de contenido como infografías, gráficos, cifras, tablas y páginas web para responder preguntas. |
Generación de contenido estructurado | Genera respuestas en formatos como HTML y JSON según las instrucciones del prompt proporcionado. |
Leyenda / descripción | Genera descripciones de imágenes y videos con diferentes niveles de detalle. |
Extrapolación | Supón lo que no se muestra en una imagen o lo que sucede antes o después de un video. |
Detección de objetos en fotos | Detecta un objeto en una imagen y muestra una descripción de texto del objeto. |
Mostrar información sobre los elementos de una imagen | Usa una imagen que contenga varios artículos de supermercado y Gemini 1.0 Pro Vision puede mostrar una estimación de cuánto debes pagar por ellos. |
Comprensión de interfaces y pantallas | Extrae información de pantallas de dispositivos, interfaces de usuario y diseños. Por ejemplo, puedes usar una imagen de un dispositivo con Gemini 1.0 Pro Vision para obtener instrucciones sobre cómo usar el dispositivo. |
Comprensión de diagramas técnicos | Desencriptar un diagrama de relación de entidades (ER), comprender las relaciones entre tablas e identificar los requisitos de optimización en un entorno específico como BigQuery. |
Hacer una recomendación basada en varias imágenes | Puedes usar fotos de anteojos o lentes para obtener una recomendación sobre el que se adapta mejor a tu rostro. |
Generar una descripción de video | Detectar lo que se muestra en un video. Por ejemplo, proporciona un video de un destino de vacaciones, recibe una descripción del lugar, las 5 mejores cosas que hacer ahí y sugerencias sobre cómo llegar. |
Si deseas obtener más información sobre cómo diseñar mensajes para varios usos, consulta las siguientes páginas:
- Instrucciones multimodales
- Instrucciones de texto
- Instrucciones de chat
- Mensajes de chat de código
- Mensajes de generación de código
Consulta también: Limitaciones multimodales
SDK de lenguaje de programación
La API de Gemini de Vertex AI proporciona SDK en los siguientes lenguajes:
Python
El SDK de Python se proporciona en el paquete vertexai
.
from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")
response = model.generate_content(["What is this?"])
Node.js
El SDK de Vertex AI para Node.js te permite usar la API de Gemini en Vertex AI para compilar funciones y aplicaciones potenciado por IA.
// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});
const result = await model.generateContent([
"What is this?",
{inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);
Java
La API de Vertex AI para Java se proporciona en el artefacto google-cloud-vertexai
.
public static void main(String[] args) throws Exception {
try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
List<Content> contents = new ArrayList<>();
contents.add(ContentMaker
.fromMultiModalData(
"What is this?",
PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
GenerateContentResponse response = model.generateContent(contents);
}
}
Go
El SDK de Go se proporciona en el paquete cloud.google.com/go/vertexai
.
model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)
Cómo se diferencian la API de Gemini en Vertex AI y la API de Gemini en Google AI Studio
La API de Gemini en Vertex AI y la API de Gemini en Google AI Studio te permiten incorporar las capacidades de los modelos de Gemini en tus aplicaciones. La plataforma adecuada para ti depende de tus objetivos.
La API de Gemini de Vertex AI está diseñada para desarrolladores y empresas para su uso en implementaciones a escala. Ofrece características como la seguridad empresarial, la residencia de datos, el rendimiento y la asistencia técnica. Si ya eres cliente de Google Cloud o implementas aplicaciones a escala mediana o grande, estás en el lugar correcto.
Si eres un aficionado, alumno o desarrollador que es nuevo en Google Cloud, prueba la API de Gemini de Google AI, que es adecuada para la experimentación, el prototipado y las implementaciones pequeñas. Si buscas una manera de usar Gemini directamente desde tus apps web y para dispositivos móviles, consulta los SDK de IA de Google para Android, Swift y Web.
Documentación de la API de Vertex Gemini de Vertex AI
Selecciona uno de los siguientes temas para obtener más información sobre la API de Vertex Gemini de Vertex AI.
Comienza a usar la API de Gemini de Vertex AI
-
Prepárate en Google Cloud
Si eres nuevo en Google Cloud, sigue los pasos de configuración en esta página para comenzar rápidamente.
-
Descripción general de la IA generativa en Vertex AI
Obtén información sobre los flujos de trabajo de IA generativa, los modelos disponibles y cómo comenzar a compilar tu app de IA generativa.
-
Crea mensajes para Gemini en Vertex AI Studio
Usa Vertex AI Studio para diseñar, probar y personalizar tus instrucciones multimodales de Gemini.
Migra a la API de Gemini de Vertex AI
-
Migra de Azure OpenAI a Vertex AI
Aprende a migrar tu código de Python de Azure OpenAI a la API de Vertex AI Gemini.
-
Migrar de la IA de Google a Vertex AI
Aprende a migrar tu código de Python desde la API de Gemini de la IA de Google a la API de Vertex AI Gemini.
-
Migra de la API de PaLM a la API de Gemini
Obtén información sobre cómo migrar tu código de Python de la API de PaLM de Vertex AI a la API de Vertex AI Gemini.
Aprende a usar las funciones principales
-
Envía solicitudes de prompts multimodales
Obtén información sobre cómo enviar solicitudes de prompts multimodales con la consola de Cloud, el SDK de Python o la API de REST.
-
Envía solicitudes de prompts de chat
Aprende a enviar prompts de chat de un solo turno y de varios turnos con la consola de Cloud, el SDK de Python o la API de REST.
-
Llamada a función
Obtén información sobre cómo obtener el modelo para generar JSON a fin de llamar a funciones externas.