Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Cette page fournit les conditions préalables et des instructions détaillées pour affiner Gemini sur les données de documents à l'aide de l'apprentissage supervisé.
Cas d'utilisation
Le réglage fin vous permet de personnaliser des modèles de langage puissants en fonction de vos besoins spécifiques.
Voici quelques cas d'utilisation clés dans lesquels l'affinage avec votre propre ensemble de PDF peut améliorer considérablement les performances d'un modèle:
Base de connaissances interne: convertissez vos documents internes en une base de connaissances alimentée par l'IA qui fournit des réponses et des insights instantanés. Par exemple, un représentant commercial peut accéder instantanément aux spécifications et aux détails de tarification d'un produit à partir de documents de formation précédents.
Assistant de recherche: créez un assistant de recherche capable d'analyser une collection de documents de recherche, d'articles et de livres. Un chercheur étudiant le changement climatique peut rapidement analyser des articles scientifiques pour identifier les tendances de la montée du niveau de la mer ou évaluer l'efficacité de différentes stratégies d'atténuation.
Conformité juridique ou réglementaire: le raffinement des documents juridiques peut aider à automatiser l'examen des contrats, en signalant les incohérences ou les zones à risque potentielles. Les professionnels du droit peuvent ainsi se concentrer sur des tâches de niveau supérieur tout en assurant la conformité.
Génération automatisée de rapports: automatisez l'analyse de rapports financiers complexes, en extrayant les indicateurs clés de performance et en générant des résumés pour les parties prenantes. Cela peut vous faire gagner du temps et réduire le risque d'erreurs par rapport à une analyse manuelle.
Synthèse et analyse du contenu: résumez de longs documents PDF, extrayez des insights clés et analysez les tendances. Par exemple, une équipe d'études de marché peut analyser un ensemble d'enquêtes auprès des clients pour identifier les principaux thèmes et sentiments.
Comparaison de documents et contrôle des versions: comparez différentes versions d'un document pour identifier les modifications et suivre les révisions. Cela peut s'avérer particulièrement utile dans les environnements collaboratifs où plusieurs auteurs contribuent à un document.
Limites
Nombre maximal de pages par exemple: 16
Nombre maximal de fichiers PDF par exemple: 4
Taille maximale du fichier PDF: 20 Mo
Pour en savoir plus sur les exigences de compréhension des documents, consultez la section Comprendre les documents.
Format de l'ensemble de données
Voici un exemple d'ensemble de données de documents.
{"contents":[{"role":"user","parts":[{"fileData":{"mimeType":"application/pdf","fileUri":"gs://cloud-samples-data/generative-ai/pdf/2403.05530.pdf"}},{"text":"You are a very professional document summarization specialist.Please summarize the given document."}]},{"role":"model","parts":[{"text":"The report introduces Gemini 1.5 Pro, a multimodal AI model developed by Google DeepMind. The report positions Gemini 1.5 Pro as a significant advancement in multimodal AI, pushing the boundaries of long-context understanding and opening new avenues for future research and applications."}]}]}
Étape suivante
Pour en savoir plus sur la capacité de compréhension des documents des modèles Gemini, consultez la présentation de la compréhension des documents.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/04 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/04 (UTC)."],[],[],null,["# Document tuning\n\nThis page provides prerequisites and detailed instructions for fine-tuning\nGemini on document data using supervised learning.\n\nUse cases\n---------\n\nFine-tuning lets you customize powerful language models for your specific needs.\nHere are some key use cases where fine-tuning with your own set of PDFs can\nsignificantly enhance a model's performance:\n\n- **Internal knowledge base**: Convert your internal documents into an AI-powered knowledge base that provides instant answers and insights. For example, a sales representative could instantly access product specifications and pricing details from past training materials.\n- **Research assistant**: Create a research assistant capable of analyzing a collection of research papers, articles, and books. A researcher studying climate change could quickly analyze scientific papers to identify trends in sea level rise or assess the effectiveness of different mitigation strategies.\n- **Legal or regulatory compliance**: Fine-tuning on legal documents can help automate contract review, flagging potential inconsistencies or areas of risk. This allows legal professionals to focus on higher-level tasks while ensuring compliance.\n- **Automated report generation**: Automate the analysis of complex financial reports, extracting key performance indicators and generating summaries for stakeholders. This can save time and reduce the risk of errors compared to manual analysis.\n- **Content summarization and analysis**: Summarize lengthy PDF documents, extract key insights, and analyze trends. For example, a market research team could analyze a collection of customer surveys to identify key themes and sentiment.\n- **Document comparison and version control**: Compare different versions of a document to identify changes and track revisions. This can be particularly useful in collaborative environments where multiple authors contribute to a document.\n\nLimitations\n-----------\n\n### Gemini 2.5 models\n\n### Gemini 2.0 Flash\nGemini 2.0 Flash-Lite\n\nTo learn more about document understanding requirements, see [Document understanding](/vertex-ai/generative-ai/docs/multimodal/document-understanding#document-requirements).\n\nDataset format\n--------------\n\nThe `fileUri` for your dataset can be the URI for a file in a Cloud Storage\nbucket, or it can be a publicly available HTTP or HTTPS URL.\n\nTo see the generic format example, see\n[Dataset example for Gemini](/vertex-ai/generative-ai/docs/models/gemini-supervised-tuning-prepare#dataset-example).\n\nThe following is an example of a document dataset. \n\n {\n \"contents\": [\n {\n \"role\": \"user\",\n \"parts\": [\n {\n \"fileData\": {\n \"mimeType\": \"application/pdf\",\n \"fileUri\": \"gs://cloud-samples-data/generative-ai/pdf/2403.05530.pdf\"\n }\n },\n {\n \"text\": \"You are a very professional document summarization specialist. Please summarize the given document.\"\n }\n ]\n },\n {\n \"role\": \"model\",\n \"parts\": [\n {\n \"text\": \"The report introduces Gemini 2.0 Flash, a multimodal AI model developed by Google DeepMind. The report positions Gemini 2.0 Flash as a significant advancement in multimodal AI, pushing the boundaries of long-context understanding and opening new avenues for future research and applications.\"\n }\n ]\n }\n ]\n }\n\nWhat's next\n-----------\n\n- To learn more about the document understanding capability of Gemini models, see the [Document understanding](/vertex-ai/generative-ai/docs/multimodal/document-understanding) overview.\n- To start tuning, see [Tune Gemini models by using supervised fine-tuning](/vertex-ai/generative-ai/docs/models/gemini-use-supervised-tuning)\n- To learn how supervised fine-tuning can be used in a solution that builds a generative AI knowledge base, see [Jump Start Solution: Generative AI\n knowledge base](/architecture/ai-ml/generative-ai-knowledge-base)."]]