English
Deutsch
Español – América Latina
Français
Indonesia
Italiano
Português – Brasil
中文 – 简体
日本語
한국어

Comunícate con nosotros Empezar gratis

Ventajas y limitaciones del modelo de Gemini

Ventajas del modelo de Gemini

Las siguientes son algunas de las fortalezas multimodales con los modelos Gemini 1.0:

Caso de uso	Descripción
Búsqueda de información	Combinación d los conocimientos del mundo con información extraída de las imágenes y los videos.
Reconocimiento de objetos	Responder preguntas relacionadas con la identificación detallada de objetos en imágenes y videos.
Comprensión del contenido digital	Responder a las preguntas y extraer información de diversos contenidos, como infografías, gráficos, cifras, tablas y páginas web
Generación de contenido estructurado	Generación de respuestas en formatos como HTML y JSON según las instrucciones del prompt proporcionado.
Leyenda / descripción	Genera descripciones de imágenes y videos con diferentes niveles de detalle. Recomendamos comenzar con los siguientes mensajes para obtener imágenes y videos, y realizar iteraciones a partir de ellos para obtener descripciones más específicas. Imagen: “¿Puedes escribir una descripción sobre la imagen?” Video: “¿Puedes escribir una descripción sobre lo que sucede en este video?”
Extrapolaciones	Sugerir qué más ver según la ubicación, qué podría suceder después, antes o entre imágenes o videos, y habilitar los usos creativos para escribir historias basadas en entradas visuales.

Limitaciones de Gemini

Los modelos de Gemini 1.0 tienen las siguientes limitaciones:

Limitación	Descripción
Motivos espaciales	Puede tener dificultades con la localización precisa de objetos y texto en las imágenes. Es posible que sea menos preciso en la comprensión de las imágenes rotadas.
Recuento	Solo puede proporcionar aproximaciones aproximadas de los recuentos de objetos, en especial para los objetos ocultos.
Información sobre los videos más largos	Puede admitir videos como una modalidad independiente (diferente del procesamiento de imágenes individuales). Sin embargo, el modelo recibe información de un conjunto no contiguo de marcos de imagen, no del video continuo en sí (y sin audio). Gemini tampoco extrae información durante más de dos minutos del video. Para mejorar el rendimiento en videos con contenido denso, acorta el video para que el modelo capture una mayor parte del contenido de video.
Seguimiento de instrucciones complejas	Las tareas que requieren varios pasos de razonamiento pueden costar. Considera desglosar las instrucciones o proporcionar ejemplos limitados para brindar una mejor orientación.
Usos médicos	No son adecuadas para interpretar imágenes médicas (por ejemplo, radiografías, TC) ni brindar asesoramiento médico.
Chat de varios turnos (multimodal)	No está entrenado para la funcionalidad de chatbot ni para responder preguntas en un tono de conversación, y puede tener un rendimiento menos eficaz en conversaciones de varios turnos.

¿Qué sigue?

Para comenzar, consulta Prueba los prompts multimodales.

Salvo que se indique lo contrario, el contenido de esta página está sujeto a la licencia Atribución 4.0 de Creative Commons, y los ejemplos de código están sujetos a la licencia Apache 2.0. Para obtener más información, consulta las políticas del sitio de Google Developers. Java es una marca registrada de Oracle o sus afiliados.

Última actualización: 2024-03-23 (UTC)