En esta página se describen los requisitos previos y las instrucciones detalladas para ajustar Gemini con datos de imagen mediante el aprendizaje supervisado.
Casos prácticos
El ajuste fino te permite adaptar los modelos base de Gemini a tareas especializadas. Estos son algunos casos prácticos de uso de imágenes:
- Mejora del catálogo de productos: extrae atributos clave de las imágenes (por ejemplo, marca, color o talla) para crear y enriquecer automáticamente tu catálogo de productos.
- Moderación de imágenes: ajusta un modelo para detectar y marcar contenido inapropiado o dañino en imágenes, lo que garantiza una experiencia online más segura.
- Inspección visual: entrena un modelo para identificar objetos o defectos específicos en imágenes y automatiza los procesos de control o inspección de calidad.
- Clasificación de imágenes: mejora la precisión de la clasificación de imágenes en dominios específicos, como las imágenes médicas o el análisis de imágenes por satélite.
- Recomendaciones basadas en imágenes: analiza imágenes para ofrecer recomendaciones personalizadas, como sugerencias de productos similares o artículos complementarios.
- Extracción del contenido de tablas: extrae datos de tablas incluidas en imágenes y conviértelos en formatos estructurados, como hojas de cálculo o bases de datos.
Limitaciones
- Número máximo de imágenes por ejemplo: 30
- Tamaño máximo del archivo de imagen: 20 MB
Para obtener más información sobre los requisitos de las imágenes de ejemplo, consulta la página Comprensión de imágenes.
Formato del conjunto de datos
El fileUri
de tu conjunto de datos puede ser el URI de un archivo de un segmento de Cloud Storage o una URL HTTP o HTTPS disponible públicamente.
Para ver un ejemplo de formato genérico, consulta Ejemplo de conjunto de datos para Gemini.
A continuación, se muestra un ejemplo de un conjunto de datos de imágenes.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "image/jpeg",
"fileUri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/longcap100/100.jpeg"
}
},
{
"text": "Describe this image in detail that captures the essence of it."
}
]
},
{
"role": "model",
"parts": [
{
"text": "A man stands on a road, wearing a blue denim jacket, tan pants, and white sneakers. He has his hands in his pockets and is wearing a white t-shirt under his jacket. The man's pants are cuffed, and his shoes are white. The road is dark grey, and the leaves are green. The man is standing in the shade, and the light is shining on the ground."
}
]
}
]
}
Conjuntos de datos de ejemplo
Puedes usar los siguientes conjuntos de datos de muestra para aprender a ajustar un modelo de Gemini. Para usar estos conjuntos de datos, especifica los URIs en los parámetros correspondientes al crear una tarea de ajuste fino supervisado de un modelo de texto.
Para usar el conjunto de datos de ajuste de ejemplo, especifica su ubicación de la siguiente manera:
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_train_data.jsonl",
Para usar el conjunto de datos de validación de muestra, especifica su ubicación de la siguiente manera:
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/sft_validation_data.jsonl",
Siguientes pasos
- Para obtener más información sobre la función de interpretación de imágenes de Gemini, consulta nuestra documentación sobre interpretación de imágenes.
- Para empezar a ajustar, consulta Ajustar modelos de Gemini mediante el ajuste fino supervisado.
- Para saber cómo se puede usar el ajuste fino supervisado en una solución que cree una base de conocimientos de IA generativa, consulta Solución de inicio rápido: base de conocimientos de IA generativa.