Auf dieser Seite finden Sie Voraussetzungen und eine detaillierte Anleitung zur Feinabstimmung von Gemini mithilfe von Bilddaten und beaufsichtigtem Lernen.
Anwendungsfälle
Durch die Feinabstimmung können Sie vortrainierte Bildmodelle an spezielle Aufgaben anpassen und so ihre Leistung erheblich steigern. Hier einige Anwendungsfälle für Bilder:
- Produktkatalog-Optimierung: Es werden wichtige Attribute aus Bildern extrahiert (z.B. Marke, Farbe, Größe), um Ihren Produktkatalog automatisch zu erstellen und zu ergänzen.
- Bildmoderation: Sie können ein Modell optimieren, um unangemessene oder schädliche Inhalte in Bildern zu erkennen und zu melden. So wird das Internet für alle sicherer.
- Visuelle Prüfung: Trainieren Sie ein Modell, um bestimmte Objekte oder Mängel in Bildern zu erkennen und so die Qualitätskontrolle oder Prüfprozesse zu automatisieren.
- Bildklassifizierung: Verbessern Sie die Genauigkeit der Bildklassifizierung für bestimmte Bereiche wie die Analyse von medizinischen Bildern oder Satellitenbildern.
- Bildbasierte Empfehlungen: Bilder werden analysiert, um personalisierte Empfehlungen zu geben, z. B. ähnliche Produkte oder ergänzende Artikel.
- Extraktion von Tabelleninhalten: Daten aus Tabellen in Bildern extrahieren und in strukturierte Formate wie Tabellenkalkulationen oder Datenbanken konvertieren.
Beschränkungen
- Maximale Anzahl von Bildern pro Beispiel: 16
- Maximale Größe der Bilddatei: 20 MB
Weitere Informationen zu den Anforderungen an Bildbeispiele finden Sie auf der Seite Bilder verstehen.
Dataset-Format
Der fileUri
für Ihr Dataset kann der URI für eine Datei in einem Cloud Storage-Bucket oder eine öffentlich zugängliche HTTP- oder HTTPS-URL sein.
Ein Beispiel für das generische Format finden Sie unter Dataset-Beispiel für Gemini 1.5 Pro und Gemini 1.5 Flash.
Im Folgenden finden Sie ein Beispiel für ein Bild-Dataset.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "image/jpeg",
"fileUri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-1_5/image/longcap100/100.jpeg"
}
},
{
"text": "Describe this image in detail that captures the essence of it."
}
]
},
{
"role": "model",
"parts": [
{
"text": "A man stands on a road, wearing a blue denim jacket, tan pants, and white sneakers. He has his hands in his pockets and is wearing a white t-shirt under his jacket. The man's pants are cuffed, and his shoes are white. The road is dark grey, and the leaves are green. The man is standing in the shade, and the light is shining on the ground."
}
]
}
]
}
Beispieldatensätze
Sie können ein Beispiel-Dataset verwenden, um zu erfahren, wie Sie ein gemini-1.5-pro
- oder gemini-1.5-flash
-Modell optimieren.
Geben Sie die URIs in den entsprechenden Parametern beim Erstellen eines überwachten Textmodell-Feinabstimmungsjobs an, um diese Datasets zu verwenden.
Beispiel:
...
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_train_data.jsonl",
...
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_validation_data.jsonl",
...
Nächste Schritte
- Weitere Informationen zur Bilderkennung durch Gemini finden Sie in der Dokumentation zur Bilderkennung.
- Weitere Informationen finden Sie unter Gemini-Modelle mithilfe der überwachten Feinabstimmung abstimmen.
- Informationen dazu, wie die überwachte Feinabstimmung in einer Lösung verwendet werden kann, die eine Wissensdatenbank für generative KI erstellt, finden Sie unter Schnellstartlösung: Wissensdatenbank für generative KI.