Ventajas del modelo de Gemini
Las siguientes son algunas de las fortalezas multimodales con los modelos Gemini 1.0:
Caso de uso | Descripción |
---|---|
Búsqueda de información | Combinación d los conocimientos del mundo con información extraída de las imágenes y los videos. |
Reconocimiento de objetos | Responder preguntas relacionadas con la identificación detallada de objetos en imágenes y videos. |
Comprensión del contenido digital | Responder a las preguntas y extraer información de diversos contenidos, como infografías, gráficos, cifras, tablas y páginas web |
Generación de contenido estructurado | Generación de respuestas en formatos como HTML y JSON según las instrucciones del prompt proporcionado. |
Leyenda / descripción | Genera descripciones de imágenes y videos con diferentes niveles de detalle. Recomendamos comenzar con los siguientes mensajes para obtener imágenes y videos, y realizar iteraciones a partir de ellos para obtener descripciones más específicas.
|
Extrapolaciones | Sugerir qué más ver según la ubicación, qué podría suceder después, antes o entre imágenes o videos, y habilitar los usos creativos para escribir historias basadas en entradas visuales. |
Limitaciones de Gemini
Los modelos de Gemini 1.0 tienen las siguientes limitaciones:
Limitación | Descripción |
---|---|
Motivos espaciales | Puede tener dificultades con la localización precisa de objetos y texto en las imágenes. Es posible que sea menos preciso en la comprensión de las imágenes rotadas. |
Recuento | Solo puede proporcionar aproximaciones aproximadas de los recuentos de objetos, en especial para los objetos ocultos. |
Información sobre los videos más largos | Puede admitir videos como una modalidad independiente (diferente del procesamiento de imágenes individuales). Sin embargo, el modelo recibe información de un conjunto no contiguo de marcos de imagen, no del video continuo en sí (y sin audio). Gemini tampoco extrae información durante más de dos minutos del video. Para mejorar el rendimiento en videos con contenido denso, acorta el video para que el modelo capture una mayor parte del contenido de video. |
Seguimiento de instrucciones complejas | Las tareas que requieren varios pasos de razonamiento pueden costar. Considera desglosar las instrucciones o proporcionar ejemplos limitados para brindar una mejor orientación. |
Usos médicos | No son adecuadas para interpretar imágenes médicas (por ejemplo, radiografías, TC) ni brindar asesoramiento médico. |
Chat de varios turnos (multimodal) | No está entrenado para la funcionalidad de chatbot ni para responder preguntas en un tono de conversación, y puede tener un rendimiento menos eficaz en conversaciones de varios turnos. |
¿Qué sigue?
Para comenzar, consulta Prueba los prompts multimodales.