En esta página, se proporcionan los requisitos previos y las instrucciones detalladas para ajustar Gemini en datos de imagen con el aprendizaje supervisado.
Casos de uso
El ajuste fino te permite adaptar modelos de imágenes previamente entrenados para tareas especializadas, lo que mejora significativamente su rendimiento. Estos son algunos casos de uso de imágenes:
- Mejora del catálogo de productos: Extrae atributos clave de las imágenes (p. ej., marca, color y tamaño) para crear y enriquecer automáticamente tu catálogo de productos.
- Moderación de imágenes: Ajusta un modelo para detectar y marcar contenido inapropiado o prejudicial en las imágenes, lo que garantiza una experiencia en línea más segura.
- Inspección visual: Entrena un modelo para identificar objetos o defectos específicos dentro de las imágenes y automatizar los procesos de control de calidad o inspección.
- Clasificación de imágenes: Mejora la exactitud de la clasificación de imágenes para dominios específicos, como el análisis de imágenes médicas o de imágenes satelitales.
- Recomendaciones basadas en imágenes: Analizan las imágenes para proporcionar recomendaciones personalizadas, como sugerir productos similares o artículos complementarios.
- Extracción de contenido de tablas: Extrae datos de tablas dentro de imágenes y conviértelos en formatos estructurados, como hojas de cálculo o bases de datos.
Limitaciones
- Cantidad máxima de imágenes por ejemplo: 16
- Tamaño máximo del archivo de imagen: 20 MB
Para obtener más información sobre los requisitos de las muestras de imágenes, consulta la página Comprensión de imágenes.
Formato del conjunto de datos
El siguiente es un ejemplo de un conjunto de datos de imágenes.
Para ver el ejemplo de formato genérico, consulta Ejemplo de conjunto de datos para Gemini 1.5 Pro y Gemini 1.5 Flash.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "image/jpeg",
"fileUri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-1_5/image/longcap100/100.jpeg"
}
},
{
"text": "Describe this image in detail that captures the essence of it."
}
]
},
{
"role": "model",
"parts": [
{
"text": "A man stands on a road, wearing a blue denim jacket, tan pants, and white sneakers. He has his hands in his pockets and is wearing a white t-shirt under his jacket. The man's pants are cuffed, and his shoes are white. The road is dark grey, and the leaves are green. The man is standing in the shade, and the light is shining on the ground."
}
]
}
]
}
Conjunto de datos de muestra
Puedes usar un conjunto de datos de muestra para aprender a ajustar un modelo gemini-1.5-pro
o gemini-1.5-flash
.
Para usar estos conjuntos de datos, especifica los URI en los parámetros aplicables cuando crees un trabajo de ajuste supervisado del modelo de texto.
Por ejemplo:
...
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_train_data.jsonl",
...
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_validation_data.jsonl",
...
¿Qué sigue?
- Para obtener más información sobre la función de comprensión de imágenes de Gemini, consulta nuestra documentación sobre comprensión de imágenes.
- Para comenzar a ajustar, consulta Ajusta los modelos de Gemini con el ajuste supervisado.
- Para obtener información sobre cómo se puede usar el ajuste supervisado en una solución que compila una base de conocimiento de IA generativa, consulta Solución de inicio rápido: base de conocimiento de IA generativa.