Ventajas y limitaciones del modelo de Gemini

Ventajas del modelo de Gemini

Las siguientes son algunas de las fortalezas multimodales con los modelos Gemini 1.0:

Caso de uso Descripción
Búsqueda de información Combinación d los conocimientos del mundo con información extraída de las imágenes y los videos.
Reconocimiento de objetos Responder preguntas relacionadas con la identificación detallada de objetos en imágenes y videos.
Comprensión del contenido digital Responder a las preguntas y extraer información de diversos contenidos, como infografías, gráficos, cifras, tablas y páginas web
Generación de contenido estructurado Generación de respuestas en formatos como HTML y JSON según las instrucciones del prompt proporcionado.
Leyenda / descripción Genera descripciones de imágenes y videos con diferentes niveles de detalle. Recomendamos comenzar con los siguientes mensajes para obtener imágenes y videos, y realizar iteraciones a partir de ellos para obtener descripciones más específicas.
  • Imagen: “¿Puedes escribir una descripción sobre la imagen?”
  • Video: “¿Puedes escribir una descripción sobre lo que sucede en este video?”
  • Extrapolaciones Sugerir qué más ver según la ubicación, qué podría suceder después, antes o entre imágenes o videos, y habilitar los usos creativos para escribir historias basadas en entradas visuales.

    Limitaciones de Gemini

    Los modelos de Gemini 1.0 tienen las siguientes limitaciones:

    Limitación Descripción
    Motivos espaciales Puede tener dificultades con la localización precisa de objetos y texto en las imágenes. Es posible que sea menos preciso en la comprensión de las imágenes rotadas.
    Recuento Solo puede proporcionar aproximaciones aproximadas de los recuentos de objetos, en especial para los objetos ocultos.
    Información sobre los videos más largos Puede admitir videos como una modalidad independiente (diferente del procesamiento de imágenes individuales). Sin embargo, el modelo recibe información de un conjunto no contiguo de marcos de imagen, no del video continuo en sí (y sin audio). Gemini tampoco extrae información durante más de dos minutos del video. Para mejorar el rendimiento en videos con contenido denso, acorta el video para que el modelo capture una mayor parte del contenido de video.
    Seguimiento de instrucciones complejas Las tareas que requieren varios pasos de razonamiento pueden costar. Considera desglosar las instrucciones o proporcionar ejemplos limitados para brindar una mejor orientación.
    Usos médicos No son adecuadas para interpretar imágenes médicas (por ejemplo, radiografías, TC) ni brindar asesoramiento médico.
    Chat de varios turnos (multimodal) No está entrenado para la funcionalidad de chatbot ni para responder preguntas en un tono de conversación, y puede tener un rendimiento menos eficaz en conversaciones de varios turnos.

    ¿Qué sigue?

    Para comenzar, consulta Prueba los prompts multimodales.