O que são modelos de fundação?

Os modelos de fundação, às vezes conhecidos como modelos de base, são modelos de inteligência artificial (IA) poderosos que são treinados em uma grande quantidade de dados e podem ser adaptados a uma ampla variedade de tarefas. O termo "modelo de fundação" foi criado pelo Stanford Institute for Human-Centered Artificial Intelligence (HAI) em 2021.

Essa tecnologia oferece novas possibilidades em vários setores, desde a otimização do desenvolvimento de software até a melhoria das interações de atendimento ao cliente.

Introduction to foundation models on Google Cloud

Definição de modelos de fundação

Os modelos de fundação são um tipo de modelo de IA que passa por um pré-treinamento em uma grande quantidade de dados para realizar uma série de tarefas. Esse processo de treinamento, que geralmente usa aprendizado autossupervisionado, permite que eles aprendam padrões e relações complexos nos dados, ajudando a realizar várias tarefas com maior precisão. O mais importante é que essa escala massiva pode levar a recursos emergentes, em que o modelo pode concluir tarefas para as quais não foi explicitamente treinado. Essa mudança de ferramentas especializadas para modelos adaptáveis e de uso geral é a marca do paradigma de modelo de fundação. 

Qual é a diferença entre um modelo de fundação e um LLM?

Os termos "modelo de fundação" e "modelo de linguagem grande" (LLM) são usados como sinônimos, mas há uma diferença importante entre eles. Os LLMs são um tipo importante de modelo de fundação, mas não são o único. Pense nisso como uma relação entre pai e filho: todos os LLMs são modelos de fundação, mas nem todos os modelos de fundação são LLMs.

A principal diferença é o tipo de dados em que são baseados. Como o nome sugere, os LLMs são treinados especificamente em grandes quantidades de texto e código. A categoria mais ampla de "modelos de fundação" também inclui modelos treinados em outros tipos de dados, como imagens, áudio e vídeo, ou uma combinação deles (multimodal).

Qual é a diferença entre IA generativa e modelos de fundação?

A IA generativa e os modelos de fundação são distintos, mas estão intimamente relacionados. A melhor maneira de entender a diferença é pensar neles como o "motor" e a "função":

  • Um modelo de fundação é o mecanismo pré-treinado e poderoso, a tecnologia básica criada com base em dados massivos e projetada para adaptação
  • A IA generativa é uma função principal que esse mecanismo pode executar: a capacidade de criar novos conteúdos, como texto, imagens ou código

Embora a maioria dos modelos de fundação mais conhecidos seja usada para tarefas generativas, um modelo de fundação pode ser adaptado para fins não generativos, como classificação ou análise complexa. Portanto, nem todos os modelos de fundação são inerentemente generativos, mas eles são a tecnologia principal que impulsiona a onda atual de aplicativos de IA generativa.

Quais são os tipos de modelos de fundação?

Os modelos de fundação abrangem várias arquiteturas, cada uma projetada com pontos fortes e aplicações exclusivas. Confira alguns tipos importantes:

  • Modelos de linguagem grandes (LLMs): esses modelos são especializados em entender e gerar linguagem humana, sendo excelentes em tarefas como tradução, resumo de textos e interações com chatbots.
  • Modelos multimodais: treinados em diversos tipos de dados, incluindo texto, imagens e áudio, esses modelos podem analisar e gerar conteúdo em várias modalidades.
  • Redes adversárias generativas (GANs): as GANs são um tipo de modelo de fundação que envolve duas redes neurais competindo entre si em um jogo de soma zero. Uma rede, o gerador, cria novas instâncias de dados, enquanto a outra, o discriminador, avalia a autenticidade delas. Esse processo adversarial leva à geração de conteúdo cada vez mais realista e complexo.
  • Modelos de visão computacional : esses modelos são treinados em conjuntos de dados de imagens para realizar tarefas como classificação de imagens, detecção de objetos e geração de imagens. Eles podem ser ajustados para aplicações específicas, como análise de imagens médicas ou reconhecimento de objetos em veículos autônomos.

Como os modelos de fundação funcionam?

Os modelos de fundação são treinados em vastos conjuntos de dados usando aprendizado autossupervisionado, que é uma abordagem de machine learning que aproveita técnicas de aprendizado não supervisionado para tarefas que tradicionalmente exigem aprendizado supervisionado (por exemplo, rotular dados com entrada humana). Isso ajuda a treinar o modelo para prever partes mascaradas ou ausentes dos dados de entrada. À medida que o modelo faz previsões, ele aprende a identificar padrões, relações e estruturas nos dados.

O processo de treinamento de um modelo de fundação é semelhante ao de um modelo de machine learning e geralmente envolve várias etapas importantes:

Coleta e preparação de dados

  • Um conjunto de dados grande e diversificado é reunido, sendo representativo da distribuição dos dados no mundo real que o modelo vai encontrar durante a implantação
  • Os dados são pré-processados para remover ruídos, outliers e inconsistências. Isso pode incluir técnicas como limpeza de dados, normalização e engenharia de atributos

Seleção da arquitetura do modelo

  • Uma arquitetura de modelo apropriada é escolhida com base em vários fatores, incluindo a complexidade da tarefa, o tipo e o volume de dados e os recursos computacionais disponíveis
  • As arquiteturas de modelo comuns usadas para aprendizado autossupervisionado incluem redes neurais convolucionais (CNNs), redes neurais recorrentes (RNNs) e transformadores

Treinamento autossupervisionado

  • O modelo é treinado usando técnicas de aprendizado autossupervisionado, que envolvem a criação de pseudorrótulos para os dados e o treinamento do modelo para prever esses rótulos
  • Isso pode ser feito usando vários métodos, como aprendizado contrastivo, modelagem de linguagem mascarada e quebra-cabeças
  • O treinamento autossupervisionado permite que o modelo aprenda representações úteis dos dados sem depender de rótulos anotados manualmente, que podem ser caros e demorados para obter

Ajuste de detalhes

  • Depois que o modelo é pré-treinado usando o aprendizado autossupervisionado, ele pode ser ajustado em uma coleção de dados mais específica e voltada para a tarefa
  • Isso envolve adaptar os parâmetros do modelo para otimizar o desempenho na tarefa de destino
  • O ajuste fino ajuda o modelo a se adaptar aos requisitos específicos da tarefa e a melhorar o desempenho geral

Treinamento de alinhamento e segurança

  • Após o pré-treinamento e o ajuste detalhado, a maioria dos modelos de última geração passa por uma fase de alinhamento para garantir que as saídas sejam úteis, inofensivas e alinhadas à intenção humana
  • Essa etapa crítica costuma usar técnicas como o aprendizado por reforço com feedback humano (RLHF) e a otimização direta de preferências (DPO), em que revisores humanos avaliam as respostas do modelo para guiá-lo em direção a comportamentos mais desejáveis

Avaliação e implantação

  • Depois que o modelo é treinado e ajustado, ele é avaliado em um conjunto de teste separado para avaliar o desempenho
  • Se o modelo atender aos critérios de desempenho desejados, ele poderá ser implantado na produção, onde poderá ser usado para resolver problemas do mundo real

Benefícios de usar modelos de fundação

Os modelos de fundação oferecem várias vantagens em potencial para empresas e desenvolvedores:

Versatilidade

Os modelos de fundação podem ser adaptados a uma ampla variedade de tarefas, eliminando a necessidade de treinar modelos separados para cada aplicativo específico. Essa adaptabilidade os torna valiosos em vários setores e casos de uso.

Eficiência

Usar modelos de fundação pré-treinados pode reduzir significativamente o tempo e os recursos necessários para desenvolver novos aplicativos de IA. Ajustar um modelo pré-treinado é mais rápido e eficiente do que treinar um modelo do zero.

Acurácia

Devido ao treinamento extensivo em grandes conjuntos de dados, os modelos de fundação podem alcançar alta precisão em várias tarefas, superando os modelos treinados em conjuntos de dados menores.

Relação custo-benefício

Ao reduzir a necessidade de grandes quantidades de dados de treinamento e recursos computacionais, os modelos de fundação podem oferecer uma solução econômica para o desenvolvimento de aplicativos de IA.

Inovação

Os modelos de fundação estão ajudando a impulsionar a inovação no campo da IA, permitindo o desenvolvimento de aplicativos de IA novos e mais sofisticados.

Escalonabilidade

Os modelos de fundação podem ser escalonados para lidar com grandes conjuntos de dados e tarefas complexas, o que os torna adequados para aplicativos exigentes.

Quais são os desafios e riscos dos modelos de fundação?

Apesar dos benefícios notáveis, os modelos de fundação apresentam desafios significativos que usuários e desenvolvedores precisam superar:

  • Viés e imparcialidade: os modelos de fundação podem herdar e amplificar vieses sociais presentes nos seus vastos dados de treinamento, o que leva a resultados injustos ou preconceituosos
  • Alucinações: os modelos podem gerar informações que parecem confiáveis, mas que são factualmente incorretas ou sem sentido, um fenômeno conhecido como "alucinação".
  • Alto custo computacional: o treinamento desses modelos exige enorme poder computacional e energia, o que gera preocupações ambientais e financeiras

Exemplos de modelos de fundação

O ecossistema de modelos de fundação é dinâmico e competitivo. Confira alguns dos exemplos mais influentes de grandes empresas do setor:

  • Google: conhecido pela família Gemini, uma série de modelos multimodais avançados (o Gemini 2.5 Pro é um exemplo principal), e pelo Gemma, uma família de modelos leves e de peso aberto para desenvolvedores. O Google também desenvolveu modelos especializados como o Imagen para geração de texto para imagem e o Veo para geração de vídeo
  • OpenAI: desenvolvedora da série GPT (Generative Pre-trained Transformer), que tem grande influência e inclui o GPT-4, amplamente usado
  • Anthropic: foca na segurança da IA e desenvolveu a família de modelos Claude. A série Claude 3 (incluindo Opus, Sonnet e Haiku) é conhecida pelas grandes janelas de contexto e fortes recursos de raciocínio
  • Meta: uma das principais defensoras da IA de código aberto, a Meta desenvolveu a série Llama. O Llama 3 é um modelo aberto que acelerou a inovação em toda a comunidade
  • Mistral AI: empresa europeia que ganhou força com modelos comerciais e de código aberto de alto desempenho, como o Mistral Large e os modelos de código aberto Mixtral, que usam uma arquitetura de combinação de especialistas (MoE) para maior eficiência

Como o Google Cloud usa modelos de fundação?

O Google Cloud oferece uma plataforma corporativa completa, a Vertex AI, projetada para ajudar as organizações a acessar, personalizar e implantar modelos de fundação para aplicativos do mundo real. A estratégia é baseada em oferecer opções, ferramentas poderosas e infraestrutura integrada.

Veja como o Google Cloud usa modelos de fundação:

  • Um ecossistema de modelos diversificado e aberto: com o Vertex AI Model Garden, o Google Cloud oferece acesso a uma biblioteca abrangente de mais de 130 modelos de fundação. Isso inclui os modelos de última geração do Google, como a família Gemini (para tarefas multimodais) e o Gemma (para desenvolvimento aberto e leve), além de modelos de código aberto e de terceiros de parceiros como Anthropic (Claude), Meta (Llama) e Mistral. Isso permite que os desenvolvedores escolham o melhor modelo para as necessidades específicas de custo e desempenho.
  • Ferramentas de personalização e embasamento: a Vertex AI oferece um conjunto completo de ferramentas para ir além de comandos simples. Com o Generative AI Studio, as equipes podem testar e ajustar modelos. Um dos principais recursos é a capacidade de embasar modelos nos dados corporativos da organização. Isso conecta as capacidades de raciocínio do modelo com as fontes de dados específicas de uma empresa, reduzindo significativamente as alucinações e tornando as respostas factualmente consistentes e relevantes.
  • Criação de agentes e aplicativos de IA : o Google Cloud está focado em ajudar os desenvolvedores a criar aplicativos de IA sofisticados, e não apenas chatbots. Com o Vertex AI Agent Builder, as organizações podem criar e implantar agentes de IA conversacional para atendimento ao cliente, helpdesks internos e outros processos de negócios.
  • Incorporação da IA generativa nos fluxos de trabalho: os modelos de fundação estão sendo integrados diretamente aos serviços do Google Cloud que as empresas já usam. Por exemplo, o Gemini Code Assist atua como um assistente com tecnologia de IA para desenvolvedores escreverem, explicarem e testarem códigos com mais rapidez, enquanto os recursos do BigQuery permitem a análise de dados orientada por IA diretamente no data warehouse.

Vá além

Comece a criar no Google Cloud com US$ 300 em créditos e mais de 20 produtos do programa Sempre gratuito.

Google Cloud