En esta demostración, se muestra cómo generar contenido multimodal pasando entradas multimodales, como texto y una imagen, a un modelo de Gemini con el SDK de Vertex AI para ABAP.
Antes de comenzar
Antes de ejecutar esta demostración, asegúrate de que tú o tus administradores hayan completado los siguientes requisitos previos:
- Habilitaste la API de Vertex AI en tu proyecto de Google Cloud.
- Configura la autenticación para acceder a la API de Vertex AI.
- Configuraste los parámetros de generación del modelo.
Genera contenido multimodal
Para generar contenido multimodal, sigue estos pasos:
En la GUI de SAP, ejecuta el código de transacción
/GOOG/SDK_IMG
.Como alternativa, ejecuta el código de transacción
SPRO
y, luego, haz clic en IMG de referencia de SAP.Go to SDK de ABAP para Google Cloud > Demostraciones.
Abre SDK de Vertex AI: Demostración: Invoca modelos de Gemini de texto y multimodales.
Selecciona Generar contenido multimodal.
En el campo Clave de cliente, ingresa la clave de cliente para la autenticación.
En el campo Clave de modelo, ingresa la clave de modelo, que se configura en los parámetros de generación del modelo.
Especifica valores para los siguientes campos según corresponda:
- Tipo de MIME: Especifica el tipo de MIME estándar de la IANA de los datos de origen.
El valor predeterminado es
application/pdf
. - URI de GCS del archivo: Para agregar una imagen o algún otro elemento multimedia a tu solicitud, especifica el URI del archivo almacenado en un bucket de Cloud Storage.
- Subir contenido multimedia: Para agregar una imagen o algún otro elemento multimedia a tu solicitud, sube el archivo desde tu sistema local.
Puedes especificar el URI de un archivo almacenado en un bucket de Cloud Storage o subir un archivo desde tu sistema local.
- Tipo de MIME: Especifica el tipo de MIME estándar de la IANA de los datos de origen.
El valor predeterminado es
En el campo Enter system instructions, proporciona las instrucciones del sistema.
En el campo Ingresar instrucción, proporciona la instrucción de entrada.
Ejecuta el programa. El área Respuesta del LLM muestra el contenido multimodal generado.