Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Cette page fournit les conditions préalables et des instructions détaillées pour affiner les modèles Gemini sur des données d'images, à l'aide de l'apprentissage supervisé.
Cas d'utilisation
L'affinage vous permet d'adapter des modèles d'images pré-entraînés à des tâches spécialisées, ce qui améliore considérablement leurs performances. Voici quelques exemples d'utilisation des images :
Amélioration du catalogue de produits : extrayez des attributs clés à partir d'images (par exemple, la marque, la couleur et la taille) pour créer et enrichir automatiquement votre catalogue de produits.
Modération des images : ajustez un modèle pour détecter et signaler les contenus inappropriés ou nuisibles dans les images, afin de garantir une expérience en ligne plus sûre.
Inspection visuelle : entraînez un modèle pour identifier des objets ou des défauts spécifiques dans des images, en automatisant les processus de contrôle qualité ou d'inspection.
Classification d'images : améliorez la précision de la classification d'images pour des domaines spécifiques, tels que l'imagerie médicale ou l'analyse d'images satellites.
Recommandations basées sur les images : analysez les images pour fournir des recommandations personnalisées, telles que des produits similaires ou des articles complémentaires.
Extraction du contenu des tableaux : extrayez les données des tableaux dans les images et convertissez-les en formats structurés tels que des feuilles de calcul ou des bases de données.
Limites
Nombre maximal d'images par exemple : 16
Taille maximale des fichiers image : 20 Mo
Pour en savoir plus sur les exigences concernant les échantillons d'images, consultez la page Compréhension des images.
{"contents":[{"role":"user","parts":[{"fileData":{"mimeType":"image/jpeg","fileUri":"gs://cloud-samples-data/ai-platform/generative_ai/gemini-1_5/image/longcap100/100.jpeg"}},{"text":"Describe this image in detail that captures the essence of it."}]},{"role":"model","parts":[{"text":"A man stands on a road, wearing a blue denim jacket, tan pants, and white sneakers. He has his hands in his pockets and is wearing a white t-shirt under his jacket. The man's pants are cuffed, and his shoes are white. The road is dark grey, and the leaves are green. The man is standing in the shade, and the light is shining on the ground."}]}]}
Exemples d'ensembles de données
Vous pouvez utiliser un exemple d'ensemble de données pour apprendre à régler un modèle gemini-1.5-pro ou gemini-1.5-flash.
Pour utiliser ces ensembles de données, spécifiez les URI dans les paramètres applicables lors de la création d'un job de réglage supervisé d'un modèle de texte.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/04 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/04 (UTC)."],[],[],null,["# Image tuning\n\nThis page provides prerequisites and detailed instructions for fine-tuning\nGemini on image data using supervised learning.\n\nUse cases\n---------\n\nFine-tuning lets you adapt base Gemini models for specialized tasks.\nHere are some image use cases:\n\n- **Product catalog enhancement**: Extract key attributes from images (e.g., brand, color, size) to automatically build and enrich your product catalog.\n- **Image moderation**: Fine-tune a model to detect and flag inappropriate or harmful content in images, ensuring a safer online experience.\n- **Visual inspection**: Train a model to identify specific objects or defects within images, automating quality control or inspection processes.\n- **Image classification**: Improve the accuracy of image classification for specific domains, such as medical imaging or satellite imagery analysis.\n- **Image-based recommendations**: Analyze images to provide personalized recommendations, such as suggesting similar products or complementary items.\n- **Table content extraction**: Extract data from tables within images and convert it into structured formats like spreadsheets or databases.\n\nLimitations\n-----------\n\n- Maximum images per example: 30\n- Maximum image file size: 20MB\n\nTo learn more about image sample requirements, see the [Image understanding](/vertex-ai/generative-ai/docs/multimodal/image-understanding#image-requirements) page.\n\nDataset format\n--------------\n\nThe `fileUri` for your dataset can be the URI for a file in a Cloud Storage\nbucket, or it can be a publicly available HTTP or HTTPS URL.\n\nTo see the generic format example, see\n[Dataset example for Gemini](/vertex-ai/generative-ai/docs/models/gemini-supervised-tuning-prepare#dataset-example).\n\nThe following is an example of an image dataset. \n\n {\n \"contents\": [\n {\n \"role\": \"user\",\n \"parts\": [\n {\n \"fileData\": {\n \"mimeType\": \"image/jpeg\",\n \"fileUri\": \"gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/image/longcap100/100.jpeg\"\n }\n }, \n {\n \"text\": \"Describe this image in detail that captures the essence of it.\"\n }\n ]\n }, \n {\n \"role\": \"model\",\n \"parts\": [\n {\n \"text\": \"A man stands on a road, wearing a blue denim jacket, tan pants, and white sneakers. He has his hands in his pockets and is wearing a white t-shirt under his jacket. The man's pants are cuffed, and his shoes are white. The road is dark grey, and the leaves are green. The man is standing in the shade, and the light is shining on the ground.\"\n }\n ]\n }\n ]\n }\n\n### Sample datasets\n\nYou can use the following sample datasets to learn how to tune a\nGemini model. To use these datasets, specify the URIs in the\napplicable parameters when creating a text model supervised fine-tuning job.\n\nTo use the sample tuning dataset, specify its location as follows: \n\n \"training_dataset_uri\": \"gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_train_data.jsonl\",\n\nTo use the sample validation dataset, specify its location as follows: \n\n \"validation_dataset_uri\": \"gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_validation_data.jsonl\",\n\nWhat's next\n-----------\n\n- To learn more about the image understanding capability of Gemini, see our [Image understanding](/vertex-ai/generative-ai/docs/multimodal/image-understanding) documentation.\n- To start tuning, see [Tune Gemini models by using supervised fine-tuning](/vertex-ai/generative-ai/docs/models/gemini-use-supervised-tuning)\n- To learn how supervised fine-tuning can be used in a solution that builds a generative AI knowledge base, see [Jump Start Solution: Generative AI\n knowledge base](/architecture/ai-ml/generative-ai-knowledge-base)."]]