Esta página se ha traducido con Cloud Translation API.

Diseña peticiones multimodales

La API de Gemini en Vertex AI te permite incluir entradas multimodales, como texto, imágenes y vídeo, en tu petición a los modelos de Gemini. En esta página se indican las prácticas recomendadas para diseñar peticiones multimodales y cómo solucionar problemas si tus peticiones no funcionan como esperabas. Para obtener directrices generales sobre el diseño de peticiones, consulta nuestras estrategias de diseño de peticiones recomendadas o la siguiente lista de prácticas recomendadas específicas para contenido multimodal.

Aspectos básicos del diseño de peticiones

Usar instrucciones específicas

Las peticiones claras y detalladas dan los mejores resultados. Si tienes un resultado específico en mente, incluye ese requisito en la petición para aumentar las probabilidades de obtener el resultado correcto.

Aunque una petición parezca clara para la persona que la ha escrito, puede que no esté lo suficientemente especificada. Para personalizar el comportamiento del modelo, piensa en cómo se podría interpretar tu petición y asegúrate de que las instrucciones que das sean específicas y claras.

Si has incluido la imagen de un panel de un aeropuerto en tu petición, pedirle al modelo que solo "describa esta imagen" podría generar una descripción general. Si necesitas que el modelo analice la hora y la ciudad de la imagen, incluye esa solicitud directamente en tu petición.

Petición	Respuesta del modelo
Describe esta imagen.	La imagen muestra un panel de llegadas y salidas de un aeropuerto.

Petición actualizada	Respuesta mejorada
Analiza la hora y la ciudad de la pantalla del aeropuerto que se muestra en esta imagen y crea una lista.	10:50 (Moscú) 11:05 Edimburgo 11:05 Londres 11:10 Bucarest 11:30 (Kiev) 11:35 Dublín 11:45 East Midlands 12:15 Sofía 12:30 (Londres) 12:30 Newcastle 12:40 San Petersburgo 12:40 (Londres) 12:45 Manchester

Añadir ejemplos

El modelo puede aceptar varias entradas para usarlas como ejemplos y así entender el resultado que quieres. Añadir estos ejemplos puede ayudar al modelo a identificar los patrones y aplicar la relación entre las imágenes y las respuestas proporcionadas al nuevo ejemplo. Esto se denomina aprendizaje con pocos ejemplos.

En el siguiente ejemplo, el resultado inicial es una frase completa que también contiene el país (Brasil). Si la salida preferida es solo la ciudad, no el país, puedes añadir ejemplos de pocos disparos a tu petición para guiar al modelo y que responda en ese formato.

Petición	Respuesta del modelo
Determina la ciudad y el monumento.	El monumento es la estatua del Cristo Redentor de Río de Janeiro (Brasil).

Petición actualizada	Respuesta mejorada
Determina la ciudad y el monumento.	Ciudad: Roma. Monumento: el Coliseo.
	city: Beijing, landmark: Forbidden City
	city: Rio de Janeiro, landmark: Christ the Redeemer statue

Dividir las tareas complejas en tareas más pequeñas

Para tareas complejas, como las que requieren comprensión visual y razonamiento, divide la tarea en pasos más pequeños y sencillos, o bien pide directamente al modelo que piense paso a paso en la petición.

Petición	Respuesta del modelo
¿Cuándo me quedaré sin papel higiénico?	Pronto, solo te quedarán 3 rollos.

Petición actualizada	Respuesta mejorada
Primero, cuenta cuántos rollos de papel higiénico hay en esta imagen. Después, determina cuánto papel higiénico usa una persona de media al día. Calcula cuánto tiempo durarán estos rollos de papel higiénico.	En esta imagen hay 3 rollos de papel higiénico. Una persona media usa unas 20 hojas de papel higiénico al día. Si cada rollo contiene 200 hojas, cada rollo durará unos 10 días. Por lo tanto, los tres rollos durarán aproximadamente un mes.

Los problemas de matemáticas u otros tipos de problemas redactados también se pueden dividir en tareas más pequeñas.

Petición	Respuesta
$Una imagen de la secuencia matemática b. b(1) = 15 y b(n) = b(n-1) * (-3).$ ¿Cuál es el cuarto término de la secuencia?	-135

La respuesta del modelo es incorrecta. Prueba a pedirle al modelo que analice el problema antes de responder a la petición.

Petición	Respuesta
$Una imagen de la secuencia matemática b. b(1) = 15 y b(n) = b(n-1) * (-3).$ Primero, analiza la fórmula de la imagen. A continuación, basándote en la fórmula, responde a la pregunta "¿Cuál es el cuarto término de la secuencia?".	Haga clic para ver el resultado $$b(n) = b(n-1) * (-3)$$ $$b(1) = 15$$ Sustituye n = 4 en la fórmula: $$b(4) = b(4-1) * (-3)$$ $$b(4) = b(3) * (-3)$$ No sabemos el valor de b(3), así que sustituimos n = 3 en la fórmula: $$b(3) = b(3-1) * (-3)$$ $$b(3) = b(2) * (-3)$$ No sabemos el valor de b(2), así que sustituimos n = 2 en la fórmula: $$b(2) = b(2-1) * (-3)$$ $$b(2) = b(1) * (-3)$$ Sabemos que el valor de b(1) es 15, así que lo sustituimos en la fórmula: $$b(2) = 15 * (-3)$$ $$b(2) = -45$$ Ahora que sabemos el valor de b(2), sustitúyelo en la fórmula de b(3): $$b(3) = b(2) * (-3)$$ $$b(3) = -45 * (-3)$$ $$b(3) = 135$$ Ahora que sabemos el valor de b(3), sustitúyelo en la fórmula de b(4): $$b(4) = b(3) * (-3)$$ $$b(4) = 135 * (-3)$$ $$b(4) = -405$$ Por lo tanto, el cuarto término de la secuencia es -405.

Petición

Respuesta

$Una imagen de la secuencia matemática b. b(1) = 15 y b(n) = b(n-1) * (-3).$

Primero, analiza la fórmula de la imagen.

A continuación, basándote en la fórmula, responde a la pregunta "¿Cuál es el cuarto término de la secuencia?".

Haga clic para ver el resultado

$$b(n) = b(n-1) * (-3)$$ $$b(1) = 15$$

Sustituye n = 4 en la fórmula:
$$b(4) = b(4-1) * (-3)$$

$$b(4) = b(3) * (-3)$$
No sabemos el valor de b(3), así que sustituimos n = 3 en la fórmula:
$$b(3) = b(3-1) * (-3)$$

$$b(3) = b(2) * (-3)$$
No sabemos el valor de b(2), así que sustituimos n = 2 en la fórmula:
$$b(2) = b(2-1) * (-3)$$

$$b(2) = b(1) * (-3)$$
Sabemos que el valor de b(1) es 15, así que lo sustituimos en la fórmula:
$$b(2) = 15 * (-3)$$

$$b(2) = -45$$
Ahora que sabemos el valor de b(2), sustitúyelo en la fórmula de b(3):
$$b(3) = b(2) * (-3)$$

$$b(3) = -45 * (-3)$$

$$b(3) = 135$$
Ahora que sabemos el valor de b(3), sustitúyelo en la fórmula de b(4):
$$b(4) = b(3) * (-3)$$

$$b(4) = 135 * (-3)$$

$$b(4) = -405$$

Por lo tanto, el cuarto término de la secuencia es -405.

Para que la respuesta sea aún más clara, puedes pedirle al modelo que analice la petición paso a paso.

Petición actualizada	Respuesta mejorada
$Una imagen de la secuencia matemática b. b(1) = 15 y b(n) = b(n-1) * (-3).$ ¿Cuál es el cuarto término de la secuencia? Piensa paso a paso.	El primer término es 15. El segundo término es b(1) * (-3) = 15 * (-3) = -45. El tercer término es b(2) * (-3) = -45 * (-3) = 135. El cuarto término es b(3) * (-3) = 135 * (-3) = -405.

Petición actualizada

Respuesta mejorada

$Una imagen de la secuencia matemática b. b(1) = 15 y b(n) = b(n-1) * (-3).$

¿Cuál es el cuarto término de la secuencia? Piensa paso a paso.

El primer término es 15.

El segundo término es b(1) * (-3) = 15 * (-3) = -45.

El tercer término es b(2) * (-3) = -45 * (-3) = 135.

El cuarto término es b(3) * (-3) = 135 * (-3) = -405.

Especificar el formato de salida

Cuando se requiera un formato concreto, puedes indicar al modelo que lo use en su respuesta.

Petición	Respuesta del modelo
Analiza la tabla de esta imagen y conviértela al formato Markdown	\| Subject \| Status \| Time \| Start date \| Due on \| \|-----------\|-------------\|---------\|------------\|------------\| \| Math \| Done \| 1.5 hrs \| 11/29/2023 \| 12/1/2023 \| \| Geography \| Done \| 30 min \| 12/2/2023 \| 12/4/2023 \| \| Physics \| In progress \| 2 hrs \| 12/3/2023 \| 12/5/2023 \| \| Biology \| Not started \| 6 hrs \| 11/2/2016 \| 12/6/2023 \|

Petición

Respuesta del modelo

Analiza la tabla de esta imagen y conviértela al formato Markdown

| Subject   | Status      | Time    | Start date | Due on     |
|-----------|-------------|---------|------------|------------|
| Math      | Done        | 1.5 hrs | 11/29/2023 | 12/1/2023  |
| Geography | Done        | 30 min  | 12/2/2023  | 12/4/2023  |
| Physics   | In progress | 2 hrs   | 12/3/2023  | 12/5/2023  |
| Biology   | Not started | 6 hrs   | 11/2/2016  | 12/6/2023  |

Petición Respuesta del modelo

Petición	Respuesta del modelo
Proporcione una lista de todos los atributos siguientes: Ingredientes, tipo de cocina, si es vegetariano o no, en formato JSON	`{ "ingredients": [ "rice", "shrimp", "clams", "mussels", "peas", "tomatoes", "onions", "garlic", "olive oil", "paprika", "salt", "pepper" ], "type of cuisine": "Spanish", "vegetarian": false }`

Imagen de una comida con gambas, almejas y otros ingredientes.

Proporcione una lista de todos los atributos siguientes:

Ingredientes, tipo de cocina, si es vegetariano o no, en formato JSON


        {
          "ingredients": [
            "rice",
            "shrimp",
            "clams",
            "mussels",
            "peas",
            "tomatoes",
            "onions",
            "garlic",
            "olive oil",
            "paprika",
            "salt",
            "pepper"
          ],
          "type of cuisine": "Spanish",
          "vegetarian": false
        }

Solucionar problemas con una petición multimodal

Para solucionar problemas con una petición, puedes mejorar el lenguaje de la petición, dirigir el enfoque de la petición o ajustar los parámetros. Estos enfoques diferentes pueden dar mejores resultados, sobre todo después de determinar la causa raíz del problema.

Centrarse en la parte pertinente de una imagen

Para mejorar la respuesta, indica qué partes de la imagen son más relevantes para la petición.

Petición	Respuesta del modelo
¿Para cuántos días tendrá pañales el bebé?	Los pañales durarán 198 días antes de agotarse.

Petición actualizada	Respuesta mejorada
¿Cuánto tiempo me durarán estos pañales antes de quedarme sin ellos? Usa el peso que se indica en la caja para determinar la edad del niño y el número total de pañales que hay en la caja. Divide el número total entre el número de pañales que usa el niño al día.	La caja contiene 198 pañales. En la caja se indica que los pañales son para niños que pesan entre 10 y 17 kg. Lo más probable es que los niños de este intervalo de peso tengan entre 1 y 2 años. Un niño de 2 años suele usar 6 pañales al día, por lo que los pañales durarán unos 33 días (198/6).

Petición actualizada

Respuesta mejorada

Imagen del lateral de una caja de pañales. En la caja se ha escrito el número 198.

¿Cuánto tiempo me durarán estos pañales antes de quedarme sin ellos?

Usa el peso que se indica en la caja para determinar la edad del niño y el número total de pañales que hay en la caja.

Divide el número total entre el número de pañales que usa el niño al día.

La caja contiene 198 pañales. En la caja se indica que los pañales son para niños que pesan entre 10 y 17 kg.

Lo más probable es que los niños de este intervalo de peso tengan entre 1 y 2 años.

Un niño de 2 años suele usar 6 pañales al día, por lo que los pañales durarán unos 33 días (198/6).

Adaptar la respuesta del modelo a la entrada

Pide al modelo que describa las imágenes antes de realizar la tarea de la petición.

Petición	Respuesta del modelo
¿Qué tienen en común estas imágenes?	Las cuatro imágenes son ejemplos de fotografía de paisajes.

Petición actualizada	Respuesta mejorada
Primero, describe con detalle lo que aparece en cada imagen. ¿Qué tienen en común estas imágenes?	En la primera imagen se ve a una persona haciendo una maleta. La segunda imagen muestra un pasillo vacío de un centro comercial. La tercera imagen muestra un rollo de papel higiénico. La cuarta imagen muestra un mar oscuro y tormentoso. Lo que tienen en común estas imágenes es que todas son ejemplos de espacios liminales. Los espacios liminales son lugares o situaciones que se encuentran entre otros dos lugares o situaciones. A menudo se caracterizan por una sensación de incertidumbre o ambigüedad. La primera imagen muestra a la persona en un punto intermedio entre estar en casa y estar de viaje. La segunda imagen muestra el pasillo entre dos tiendas. La tercera imagen es de papel higiénico, que puede representar un baño. Un baño es un espacio de transición entre lo privado y lo público. Es un lugar donde nos preparamos para entrar o salir del mundo exterior. La cuarta imagen muestra el mar en calma y con tormenta. Los espacios liminales pueden ser emocionantes e inquietantes. Pueden ser un lugar de nuevos comienzos o de finales. Pueden ser un lugar de reflexión o un lugar de acción.

Petición actualizada

Respuesta mejorada

Imagen de una persona haciendo una maleta.

Una imagen de un pasillo vacío en un centro comercial.

Imagen de tres rollos de papel higiénico.

Imagen de nubes oscuras que se rompen sobre el mar.

Primero, describe con detalle lo que aparece en cada imagen. ¿Qué tienen en común estas imágenes?

En la primera imagen se ve a una persona haciendo una maleta. La segunda imagen muestra un pasillo vacío de un centro comercial. La tercera imagen muestra un rollo de papel higiénico. La cuarta imagen muestra un mar oscuro y tormentoso.

Lo que tienen en común estas imágenes es que todas son ejemplos de espacios liminales. Los espacios liminales son lugares o situaciones que se encuentran entre otros dos lugares o situaciones. A menudo se caracterizan por una sensación de incertidumbre o ambigüedad.

La primera imagen muestra a la persona en un punto intermedio entre estar en casa y estar de viaje. La segunda imagen muestra el pasillo entre dos tiendas. La tercera imagen es de papel higiénico, que puede representar un baño. Un baño es un espacio de transición entre lo privado y lo público. Es un lugar donde nos preparamos para entrar o salir del mundo exterior.

La cuarta imagen muestra el mar en calma y con tormenta.

Los espacios liminales pueden ser emocionantes e inquietantes. Pueden ser un lugar de nuevos comienzos o de finales. Pueden ser un lugar de reflexión o un lugar de acción.

Puedes pedirle explícitamente al modelo que haga referencia a lo que aparece en la imagen.

Petición actualizada	Respuesta mejorada
¿Qué tienen en común estas imágenes? Haz referencia a lo que aparece en las imágenes de tu respuesta.	Todas las imágenes están relacionadas con viajes. En la primera imagen se ve a una persona haciendo una maleta, en la segunda, un pasillo vacío de un centro comercial, en la tercera, una pila de papel higiénico y, en la cuarta, un mar oscuro y tormentoso. Todas estas imágenes están relacionadas con los viajes, ya que son cosas que la gente necesita o usa cuando viaja. En la primera imagen se ve a una persona haciendo una maleta, algo que se hace cuando se va de viaje. La segunda imagen muestra un pasillo vacío de un centro comercial, un lugar al que la gente suele ir para comprar cosas para sus viajes. La tercera imagen muestra una pila de papel higiénico, algo que la gente suele usar cuando viaja. La cuarta imagen muestra un mar oscuro y tormentoso, algo que la gente suele encontrarse cuando viaja.

Petición actualizada

Respuesta mejorada

¿Qué tienen en común estas imágenes? Haz referencia a lo que aparece en las imágenes de tu respuesta.

Todas las imágenes están relacionadas con viajes. En la primera imagen se ve a una persona haciendo una maleta, en la segunda, un pasillo vacío de un centro comercial, en la tercera, una pila de papel higiénico y, en la cuarta, un mar oscuro y tormentoso.

Todas estas imágenes están relacionadas con los viajes, ya que son cosas que la gente necesita o usa cuando viaja. En la primera imagen se ve a una persona haciendo una maleta, algo que se hace cuando se va de viaje. La segunda imagen muestra un pasillo vacío de un centro comercial, un lugar al que la gente suele ir para comprar cosas para sus viajes. La tercera imagen muestra una pila de papel higiénico, algo que la gente suele usar cuando viaja. La cuarta imagen muestra un mar oscuro y tormentoso, algo que la gente suele encontrarse cuando viaja.

Los mismos consejos sirven para la salida creativa. Pide explícitamente al modelo que incluya aspectos de la imagen, ya que esto puede mejorar el resultado.

Petición	Respuesta del modelo
¿Puedes escribir un poema sobre esta imagen?	Little bunny, so soft and brown, Hopping through the field, up and down. Your ears so long, your tail so small, You're the cutest creature of them all. You nibble on the grass, so green and sweet, And hop away when you see me. But I'll always be your friend, Little bunny, until the very end.

Petición

Respuesta del modelo

¿Puedes escribir un poema sobre esta imagen?

Little bunny, so soft and brown,
        Hopping through the field, up and down.
        Your ears so long, your tail so small,
        You're the cutest creature of them all.

You nibble on the grass, so green and sweet,
        And hop away when you see me.
        But I'll always be your friend,
        Little bunny, until the very end.

Petición actualizada	Respuesta mejorada
¿Puedes escribir un poema descriptivo y dramático sobre esta imagen e incluir la ubicación?	Little bunny on the green, Ears so long, so keen. What do you see out there, In the distance, where you stare? Is it the ocean blue, Sparkling in the sun's hue? Or the waves that crash and roar, A rhythm that you adore? Little bunny, tell me true, What captures your attention so? Is it the salty breeze, Or the seagulls' cries that please? Perhaps it's the vastness of it all, A world so big and small. A place where dreams can roam, And adventures can be sown. Little bunny, I wonder what you dream, As you sit on the grass, so serene. Do you yearn to explore the deep, Or stay on land, where you can leap? Whatever it may be, little bunny, Keep that spark of wonder burning brightly. For in your dreams and aspirations, Lies a world waiting for your creation.

Petición actualizada

Respuesta mejorada

¿Puedes escribir un poema descriptivo y dramático sobre esta imagen e incluir la ubicación?

Little bunny on the green,
        Ears so long, so keen.
        What do you see out there,
        In the distance, where you stare?

Is it the ocean blue,
        Sparkling in the sun's hue?
        Or the waves that crash and roar,
        A rhythm that you adore?

Little bunny, tell me true,
        What captures your attention so?
        Is it the salty breeze,
        Or the seagulls' cries that please?

Perhaps it's the vastness of it all,
        A world so big and small.
        A place where dreams can roam,
        And adventures can be sown.

Little bunny, I wonder what you dream,
        As you sit on the grass, so serene.
        Do you yearn to explore the deep,
        Or stay on land, where you can leap?

Whatever it may be, little bunny,
        Keep that spark of wonder burning brightly.
        For in your dreams and aspirations,
        Lies a world waiting for your creation.

Determinar por qué no se ha podido completar la petición

Un prompt puede fallar porque el modelo no ha entendido la imagen en absoluto o porque no ha seguido los pasos de razonamiento correctos después. Para distinguir entre esos motivos, pide al modelo que describa lo que hay en la imagen.

En este ejemplo, si el modelo responde con un aperitivo que parece sorprendente cuando se combina con té (como palomitas de maíz), primero determina si el modelo ha reconocido que la imagen contiene té.

Petición	Petición para solucionar problemas
¿Qué aperitivo puedo preparar en 1 minuto que combine bien con esto?	Describe el contenido de esta imagen.

Pedir al modelo que explique su razonamiento puede ayudar a acotar qué parte del razonamiento ha fallado, si es que ha fallado alguna.

Petición	Petición para solucionar problemas
¿Qué aperitivo puedo preparar en 1 minuto que combine bien con esto?	¿Qué aperitivo puedo preparar en 1 minuto que combine bien con esto? Explica por qué.

Ajustar los parámetros de muestreo

En cada solicitud, se envía al modelo no solo la petición multimodal, sino también un conjunto de parámetros de muestreo. El modelo puede generar resultados diferentes para distintos valores de parámetros. Experimenta con los diferentes parámetros para obtener los mejores valores para la tarea. Los parámetros que se suelen ajustar con más frecuencia son los siguientes:

Temperatura
top-P

Temperatura

La temperatura se usa para el muestreo durante la generación de respuestas, que se produce cuando se aplican los parámetros top-P y top-K. La temperatura controla el grado de aleatoriedad en la selección de tokens. Las temperaturas más bajas son adecuadas para las peticiones que requieren una respuesta más determinista y menos abierta o creativa, mientras que las temperaturas más altas pueden dar lugar a resultados más diversos o creativos. Una temperatura de 0 es determinista, lo que significa que es más probable que se seleccione la respuesta con la probabilidad más alta.

En la mayoría de los casos prácticos, empieza con una temperatura de 0,4. Si necesitas resultados más creativos, aumenta la temperatura. Si observas alucinaciones claras, reduce la temperatura.

Top-P

Top-P cambia la forma en que el modelo selecciona los tokens de salida. Los tokens se seleccionan de mayor a menor probabilidad hasta que la suma de sus probabilidades sea igual al valor de top-P. Por ejemplo, si los tokens A, B y C tienen una probabilidad de 0,6, 0,3 y 0,1, y el valor de top_p es 0,9, el modelo seleccionará A o B como el siguiente token mediante la temperatura y excluirá C como candidato.

Especifica un valor más bajo para obtener respuestas menos aleatorias y un valor más alto para obtener respuestas más aleatorias. El valor predeterminado de top-P es 1.0.

Siguientes pasos

Prueba un tutorial de inicio rápido con Vertex AI Studio o la API de Vertex AI.
Para empezar a usar la API de Gemini en Vertex AI, consulta la guía de inicio rápido de la API de Gemini en Vertex AI.