Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
En esta página, se proporcionan los requisitos previos y las instrucciones detalladas para ajustar Gemini en datos de documento con el aprendizaje supervisado.
Casos de uso
El ajuste fino te permite personalizar modelos de lenguaje potentes para tus necesidades específicas.
Estos son algunos casos de uso clave en los que el ajuste fino con tu propio conjunto de archivos PDF puede mejorar significativamente el rendimiento de un modelo:
Base de conocimiento interna: Convierte tus documentos internos en una base de conocimiento potenciada por IA que proporcione respuestas y estadísticas instantáneas. Por ejemplo, un representante de ventas podría acceder de inmediato a las especificaciones de los productos y los detalles de los precios de los materiales de capacitación anteriores.
Asistente de investigación: Crea un asistente de investigación capaz de analizar una colección de artículos de investigación, artículos y libros. Un investigador que estudia el cambio climático podría analizar rápidamente artículos científicos para identificar tendencias en el aumento del nivel del mar o evaluar la eficacia de diferentes estrategias de mitigación.
Cumplimiento legal o regulatorio: El perfeccionamiento de los documentos legales puede ayudar a automatizar la revisión de contratos y marcar posibles inconsistencias o áreas de riesgo. Esto permite que los profesionales legales se enfoquen en tareas de nivel superior y, al mismo tiempo, garanticen el cumplimiento.
Generación automática de informes: Automatiza el análisis de informes financieros complejos, extrae indicadores clave de rendimiento y genera resúmenes para las partes interesadas. Esto puede ahorrar tiempo y reducir el riesgo de errores en comparación con el análisis manual.
Resumen y análisis de contenido: Resume documentos PDF extensos, extrae estadísticas clave y analiza tendencias. Por ejemplo, un equipo de investigación de mercado podría analizar una colección de encuestas de clientes para identificar temas y opiniones clave.
Comparación de documentos y control de versiones: Compara diferentes versiones de un documento para identificar los cambios y hacer un seguimiento de las revisiones. Esto puede ser especialmente útil en entornos colaborativos en los que varios autores contribuyen a un documento.
Limitaciones
Cantidad máxima de páginas por ejemplo: 16
Cantidad máxima de archivos PDF por ejemplo: 4
Tamaño máximo del archivo PDF: 20 MB
Para obtener más información sobre los requisitos de comprensión de documentos, consulta Comprensión de documentos.
Formato del conjunto de datos
El siguiente es un ejemplo de un conjunto de datos de documentos.
{"contents":[{"role":"user","parts":[{"fileData":{"mimeType":"application/pdf","fileUri":"gs://cloud-samples-data/generative-ai/pdf/2403.05530.pdf"}},{"text":"You are a very professional document summarization specialist.Please summarize the given document."}]},{"role":"model","parts":[{"text":"The report introduces Gemini 1.5 Pro, a multimodal AI model developed by Google DeepMind. The report positions Gemini 1.5 Pro as a significant advancement in multimodal AI, pushing the boundaries of long-context understanding and opening new avenues for future research and applications."}]}]}
¿Qué sigue?
Para obtener más información sobre la capacidad de comprensión de documentos de los modelos de Gemini, consulta la descripción general de Comprensión de documentos.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-04 (UTC)"],[],[],null,["# Document tuning\n\nThis page provides prerequisites and detailed instructions for fine-tuning\nGemini on document data using supervised learning.\n\nUse cases\n---------\n\nFine-tuning lets you customize powerful language models for your specific needs.\nHere are some key use cases where fine-tuning with your own set of PDFs can\nsignificantly enhance a model's performance:\n\n- **Internal knowledge base**: Convert your internal documents into an AI-powered knowledge base that provides instant answers and insights. For example, a sales representative could instantly access product specifications and pricing details from past training materials.\n- **Research assistant**: Create a research assistant capable of analyzing a collection of research papers, articles, and books. A researcher studying climate change could quickly analyze scientific papers to identify trends in sea level rise or assess the effectiveness of different mitigation strategies.\n- **Legal or regulatory compliance**: Fine-tuning on legal documents can help automate contract review, flagging potential inconsistencies or areas of risk. This allows legal professionals to focus on higher-level tasks while ensuring compliance.\n- **Automated report generation**: Automate the analysis of complex financial reports, extracting key performance indicators and generating summaries for stakeholders. This can save time and reduce the risk of errors compared to manual analysis.\n- **Content summarization and analysis**: Summarize lengthy PDF documents, extract key insights, and analyze trends. For example, a market research team could analyze a collection of customer surveys to identify key themes and sentiment.\n- **Document comparison and version control**: Compare different versions of a document to identify changes and track revisions. This can be particularly useful in collaborative environments where multiple authors contribute to a document.\n\nLimitations\n-----------\n\n### Gemini 2.5 models\n\n### Gemini 2.0 Flash\nGemini 2.0 Flash-Lite\n\nTo learn more about document understanding requirements, see [Document understanding](/vertex-ai/generative-ai/docs/multimodal/document-understanding#document-requirements).\n\nDataset format\n--------------\n\nThe `fileUri` for your dataset can be the URI for a file in a Cloud Storage\nbucket, or it can be a publicly available HTTP or HTTPS URL.\n\nTo see the generic format example, see\n[Dataset example for Gemini](/vertex-ai/generative-ai/docs/models/gemini-supervised-tuning-prepare#dataset-example).\n\nThe following is an example of a document dataset. \n\n {\n \"contents\": [\n {\n \"role\": \"user\",\n \"parts\": [\n {\n \"fileData\": {\n \"mimeType\": \"application/pdf\",\n \"fileUri\": \"gs://cloud-samples-data/generative-ai/pdf/2403.05530.pdf\"\n }\n },\n {\n \"text\": \"You are a very professional document summarization specialist. Please summarize the given document.\"\n }\n ]\n },\n {\n \"role\": \"model\",\n \"parts\": [\n {\n \"text\": \"The report introduces Gemini 2.0 Flash, a multimodal AI model developed by Google DeepMind. The report positions Gemini 2.0 Flash as a significant advancement in multimodal AI, pushing the boundaries of long-context understanding and opening new avenues for future research and applications.\"\n }\n ]\n }\n ]\n }\n\nWhat's next\n-----------\n\n- To learn more about the document understanding capability of Gemini models, see the [Document understanding](/vertex-ai/generative-ai/docs/multimodal/document-understanding) overview.\n- To start tuning, see [Tune Gemini models by using supervised fine-tuning](/vertex-ai/generative-ai/docs/models/gemini-use-supervised-tuning)\n- To learn how supervised fine-tuning can be used in a solution that builds a generative AI knowledge base, see [Jump Start Solution: Generative AI\n knowledge base](/architecture/ai-ml/generative-ai-knowledge-base)."]]