Esta página fornece pré-requisitos e instruções detalhadas para ajustar o Gemini em dados de imagem usando o aprendizado supervisionado.
Casos de uso
O ajuste fino permite adaptar modelos de imagem pré-treinados para tarefas especializadas, melhorando significativamente a performance deles. Confira alguns casos de uso de imagens:
- Melhoria do catálogo de produtos: extraia os principais atributos das imagens (por exemplo, marca, cor, tamanho) para criar e enriquecer automaticamente o catálogo de produtos.
- Moderação de imagens: ajuste um modelo para detectar e sinalizar conteúdo inadequado ou nocivo em imagens, garantindo uma experiência on-line mais segura.
- Inspeção visual: treine um modelo para identificar objetos ou defeitos específicos em imagens, automatizando processos de inspeção ou de controle de qualidade.
- Classificação de imagens: melhore a precisão da classificação de imagens para domínios específicos, como imagens médicas ou análise de imagens de satélite.
- Recomendações com base em imagens: analise imagens para oferecer recomendações personalizadas, como sugerir produtos semelhantes ou itens complementares.
- Extração de conteúdo de tabelas: extraia dados de tabelas em imagens e os converta em formatos estruturados, como planilhas ou bancos de dados.
Limitações
- Máximo de imagens por exemplo: 16
- Tamanho máximo do arquivo de imagem: 20 MB
Para saber mais sobre os requisitos de amostra de imagem, consulte a página Entendimento de imagem.
Formato do conjunto de dados
Confira a seguir um exemplo de conjunto de dados de imagens.
Para conferir o exemplo de formato genérico, consulte Exemplo de conjunto de dados para o Gemini 1.5 Pro e o Gemini 1.5 Flash.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "image/jpeg",
"fileUri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-1_5/image/longcap100/100.jpeg"
}
},
{
"text": "Describe this image in detail that captures the essence of it."
}
]
},
{
"role": "model",
"parts": [
{
"text": "A man stands on a road, wearing a blue denim jacket, tan pants, and white sneakers. He has his hands in his pockets and is wearing a white t-shirt under his jacket. The man's pants are cuffed, and his shoes are white. The road is dark grey, and the leaves are green. The man is standing in the shade, and the light is shining on the ground."
}
]
}
]
}
Conjuntos de dados de amostra
Use um conjunto de dados de exemplo para aprender a ajustar um modelo gemini-1.5-pro
ou gemini-1.5-flash
.
Para usar esses conjuntos de dados, especifique os URIs nos parâmetros aplicáveis ao criar um job de ajuste fino supervisionado de modelo de texto.
Exemplo:
...
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_train_data.jsonl",
...
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_validation_data.jsonl",
...
A seguir
- Para saber mais sobre o recurso de compreensão de imagens do Gemini, consulte nossa documentação sobre compreensão de imagens.
- Para começar a ajustar, consulte Ajustar modelos do Gemini usando ajuste supervisionado de detalhes.
- Para saber como o ajuste supervisionado de detalhes pode ser usado em uma solução que cria uma base de conhecimento de IA generativa, consulte Solução de início rápido: base de conhecimento de IA generativa.