Glossário de IA generativa

Este glossário define os termos da inteligência artificial (IA) generativa.

Agentes de IA

Um agente de IA é uma aplicação que alcança um objetivo através do processamento de entradas, da realização de raciocínios com as ferramentas disponíveis e da tomada de medidas com base nas suas decisões. Os agentes de IA usam a chamada de funções para formatar a entrada e garantir interações precisas com ferramentas externas. O diagrama seguinte mostra os componentes de um agente de IA:

Um agente de IA consiste numa camada de orquestração, num modelo e em ferramentas.

Conforme mostrado no diagrama anterior, os agentes de IA são compostos pelos seguintes componentes:

  • Orquestração: a camada de orquestração de um agente gere a memória, o estado e a tomada de decisões controlando o plano, a utilização de ferramentas e o fluxo de dados. A orquestração inclui os seguintes componentes:
    • Perfil e instruções: o agente assume um papel específico ou uma personalidade para orientar as respetivas ações e tomada de decisões.
    • Memória: para manter o contexto e o estado, o agente retém a memória de curto prazo e a memória de longo prazo. A memória de curto prazo contém o contexto e as informações imediatas necessários para a tarefa atual. A memória de longo prazo retém o histórico de conversas completo.
    • Raciocínio e planeamento: o agente usa o modelo para realizar a decomposição e a reflexão de tarefas e, em seguida, cria um plano. Primeiro, o agente separa o comando do utilizador em subcomponentes para processar tarefas complexas chamando uma ou mais funções. Em seguida, o agente reflete sobre os resultados da função usando o raciocínio e o feedback para melhorar a resposta.
  • Modelo: qualquer modelo de linguagem generativa que processa objetivos, cria planos e gera respostas. Para um desempenho ideal, um modelo deve suportar a chamada de funções e ser preparado com assinaturas de dados de ferramentas ou passos de raciocínio.
  • Ferramentas: um conjunto de ferramentas que incluem APIs, serviços ou funções que obtêm dados e realizam ações ou transações. As ferramentas permitem que os agentes interajam com dados e serviços externos.

Para aplicações que requerem tomada de decisões autónoma, gestão de fluxos de trabalho complexos de vários passos ou experiências adaptativas, os agentes de IA têm um desempenho melhor do que os modelos fundamentais padrão. Os agentes são excelentes a resolver problemas em tempo real através da utilização de dados externos e a automatizar tarefas que exigem muitos conhecimentos. Estas capacidades permitem que um agente forneça resultados mais robustos do que as capacidades de geração de texto passivas dos modelos fundamentais.

Para mais informações sobre os agentes de IA, consulte o artigo O que é um agente de IA.


capacidade de resposta

Uma capacidade de resposta é o número de tokens que um modelo fundamental pode processar num determinado comando. Uma capacidade de resposta maior permite que o modelo aceda e processe mais informações, o que resulta em respostas mais coerentes, relevantes e abrangentes.

Os modelos Gemini são criados especificamente com capacidades de resposta longas para processar estas maiores quantidades de informações. Para dar uma ideia da escala, um modelo com uma capacidade de resposta de 1 milhão de tokens pode processar qualquer uma das seguintes entradas:

  • 50 000 linhas de código (com os 80 carateres padrão por linha)
  • Todas as mensagens de texto que enviou nos últimos 5 anos
  • 8 romances de comprimento médio em inglês
  • Transcrição de mais de 200 episódios de podcasts de duração média
  • 1 hora de vídeo sem áudio
  • Aproximadamente 45 minutos de vídeo com áudio
  • 9,5 horas de áudio

Para mais informações sobre as práticas recomendadas para comandos de contexto longo, consulte o artigo Contexto longo.


incorporação

Uma incorporação é uma representação numérica de dados, como texto, imagens ou vídeos, que capta as relações entre diferentes entradas. As incorporações são geradas durante a fase de preparação de um modelo através da conversão de texto, imagens e vídeos em matrizes de números de vírgula flutuante denominadas vetores. As incorporações reduzem frequentemente a dimensionalidade dos dados, o que ajuda a melhorar a eficiência computacional e a permitir o processamento de grandes conjuntos de dados. Esta redução da dimensionalidade é crucial para a preparação e a implementação de modelos complexos.

Os modelos de aprendizagem automática (ML) requerem que os dados sejam expressos num formato que possam processar. As incorporações cumprem esse requisito ao mapear os dados num espaço vetorial contínuo, onde a proximidade reflete pontos de dados com significados semelhantes. As incorporações permitem que os modelos discernam padrões e relações subtis que seriam obscurecidos nos dados não processados.

Por exemplo, os modelos de linguagem (conteúdo extenso) (MDIs/CEs) baseiam-se em incorporações para compreender o contexto e o significado do texto. Essa compreensão permite que o GML gere respostas coerentes e relevantes. Na geração de imagens, as incorporações capturam as caraterísticas visuais das imagens, o que permite aos modelos criar resultados realistas e diversificados.

Os sistemas que usam a geração aumentada de recuperação (RAG) baseiam-se em incorporações para fazer corresponder as consultas dos utilizadores a conhecimentos relevantes. Quando é feita uma consulta, esta é convertida numa incorporação, que é depois comparada com as incorporações de documentos que estão na base de conhecimentos. Esta comparação, que é facilitada pelas pesquisas de semelhanças no espaço vetorial, permite ao sistema obter as informações semanticamente mais relevantes.

Para mais informações sobre modelos de incorporação e exemplos de utilização, consulte a vista geral das APIs Embedding.


modelo de base

Os modelos de base são modelos grandes e poderosos que são preparados com grandes quantidades de dados, que abrangem frequentemente várias modalidades, como texto, imagens, vídeo e áudio. Estes modelos usam a modelagem estatística para prever as respostas prováveis a comandos e para gerar novo conteúdo. Aprendem padrões a partir dos respetivos dados de preparação, como padrões de linguagem para a geração de texto e técnicas de difusão para a geração de imagens.

A Google oferece uma variedade de modelos de base de IA generativa acessíveis através de uma API gerida. Para aceder aos modelos de base disponíveis no Google Cloud, use o model garden do Vertex AI.


chamada de função

A chamada de funções é uma funcionalidade que liga os modelos de linguagem (conteúdo extenso) (MDIs/CEs) a ferramentas externas, como APIs e funções, para melhorar as respostas do MDI/CE. Esta funcionalidade permite que os MDIs/CEs vão além do conhecimento estático e melhorem as respostas com informações em tempo real e serviços como bases de dados, sistemas de gestão das relações com clientes e repositórios de documentos.

Para usar a chamada de funções, fornece ao modelo um conjunto de funções. Em seguida, quando envia um comando ao modelo, este pode selecionar e chamar as funções com base no seu pedido. O modelo analisa o comando e, em seguida, gera dados estruturados que especificam a função a chamar e os valores dos parâmetros. Os dados estruturados de saída chamam a função e, em seguida, devolvem os resultados ao modelo. O modelo incorpora os resultados no seu raciocínio para gerar uma resposta. Este processo permite que o modelo aceda e utilize informações que estão além dos seus conhecimentos internos, o que permite que o modelo execute tarefas que requerem dados ou processamento externos.

A chamada de funções é um componente essencial na arquitetura dos agentes de IA. A chamada de funções oferece uma forma estruturada para o modelo especificar que ferramenta usar e como formatar a entrada, o que ajuda a garantir interações precisas com sistemas externos.

Para mais informações sobre a Chamada de funções no Gemini, consulte o artigo Introdução à Chamada de funções.


IA generativa

A IA generativa é um tipo de IA que vai além do foco tradicional da IA na classificação e na previsão. Os modelos de IA tradicionais aprendem com os dados existentes para classificar informações ou prever resultados futuros com base em padrões do histórico. A IA generativa usa modelos de base para gerar novo conteúdo, como texto, imagens, áudio ou vídeos. Este novo conteúdo é gerado através da aprendizagem dos padrões e do estilo subjacentes dos dados de preparação, o que permite efetivamente ao modelo criar resultados semelhantes aos dados com os quais foi preparado.

Saiba mais sobre quando usar a IA generativa e exemplos de utilização da IA generativa para empresas.


validação

A fundamentação é o processo de associar a saída de um modelo a fontes de informações validáveis. Estas fontes podem fornecer informações práticas e específicas do contexto, como documentação interna da empresa, dados específicos do projeto ou registos de comunicação. A fundamentação ajuda a melhorar a precisão, a fiabilidade e a utilidade dos resultados da IA, dando ao modelo acesso a origens de dados específicas. A fundamentação reduz a probabilidade de alucinações, ou seja, instâncias em que o modelo gera conteúdo que não é factual. Um tipo comum de fundamentação é a geração aumentada de recuperação (RAG), que envolve a obtenção de informações externas relevantes para melhorar as respostas do modelo.

Para mais informações sobre a fundamentação com a Pesquisa Google, consulte a vista geral da fundamentação.


modelo de linguagem (conteúdo extenso) (MDL/CE)

Um modelo de linguagem (conteúdo extenso) (MDL/CE) é um modelo fundamental orientado por texto que é preparado com base numa grande quantidade de dados. Os GMLs são usados para realizar tarefas de processamento de linguagem natural (PLN), como geração de texto, tradução automática, resumo de texto e resposta a perguntas. O termo LLM é por vezes usado de forma intercambiável com modelos de base. No entanto, os GMLs são baseados em texto, enquanto os modelos de base podem ser preparados e receber entradas de várias modalidades, incluindo texto, imagens, áudio e vídeo.

Para aprender os padrões e as relações na linguagem, os GMLs usam técnicas como a aprendizagem por reforço e o ajuste preciso das instruções. Quando cria comandos, é importante considerar os vários fatores que podem influenciar as respostas do modelo.


latência

A latência é o tempo que um modelo demora a processar um comando de entrada e gerar uma resposta. Quando examina a latência de um modelo, considere o seguinte:

  • Tempo até ao primeiro token (TTFT): o tempo que o modelo demora a produzir o primeiro token da resposta depois de receber o comando. O TTFT é importante para aplicações de streaming em que quer feedback imediato.
  • Tempo até ao último token (TTLT): o tempo total que o modelo demora a processar o comando e gerar a resposta completa.

Para obter informações sobre como reduzir a latência, consulte o artigo Práticas recomendadas com grandes modelos de linguagem (GMLs).


engenharia de comandos

A engenharia de comandos é o processo iterativo de criar um comando e aceder à resposta do modelo para obter a resposta que quer. Escrever comandos bem estruturados pode ser uma parte essencial para garantir respostas precisas e de alta qualidade de um modelo de linguagem.

Seguem-se técnicas comuns que pode usar para melhorar as respostas:

  • Comandos de zero disparos: forneça um comando sem exemplos e confie no conhecimento pré-existente do modelo.
  • Comandos únicos: forneça um único exemplo no comando para orientar a resposta do modelo.
  • Comandos com poucos exemplos: forneça vários exemplos no comando para demonstrar o padrão ou a tarefa que quer.

Quando fornece exemplos a um modelo, ajuda a controlar aspetos da resposta do modelo, como a formatação, a expressão, o âmbito e os padrões gerais. Os comandos de poucos exemplos eficazes combinam instruções claras com exemplos específicos e variados. É importante fazer experiências para determinar o número ideal de exemplos. Se forem poucos, podem não fornecer orientações suficientes, mas se forem demasiados, podem fazer com que o modelo se ajuste demasiado aos exemplos e não consiga generalizar bem.

Para mais informações sobre as práticas recomendadas para a criação de comandos, consulte o artigo Vista geral das estratégias de comandos.


pedir

Um comando é um pedido em linguagem natural que é enviado a um modelo de IA generativa para obter uma resposta. Consoante o modelo, um comando pode conter texto, imagens, vídeos, áudio, documentos e outras modalidades ou até várias modalidades (multimodal).

Um comando eficaz consiste em conteúdo e estrutura. O conteúdo fornece todas as informações relevantes da tarefa, como instruções, exemplos e contexto. A estrutura garante uma análise eficiente através da organização, incluindo a ordenação, a etiquetagem e os delimitadores. Consoante o resultado pretendido, pode considerar componentes adicionais.


parâmetros do modelo

Os parâmetros do modelo são variáveis internas que um modelo usa para determinar como o modelo processa os dados de entrada e como gera as saídas. Durante a preparação, pode ajustar os parâmetros do modelo, como o peso e a tendência, para otimizar o desempenho do modelo. Durante a inferência, pode influenciar o resultado do modelo através de vários parâmetros de comandos, o que não altera diretamente os parâmetros do modelo aprendido.

Seguem-se alguns dos parâmetros de comandos que afetam a geração de conteúdo na API Gemini no Vertex AI:

  • temperature: a temperatura altera a aleatoriedade da seleção de tokens durante a geração de respostas, o que influencia a criatividade e a previsibilidade do resultado. O valor de temperature varia entre 0 e 1. As temperaturas mais baixas (mais próximas de 0) produzem resultados mais determinísticos e previsíveis. As temperaturas mais elevadas (mais próximas de 1) geram texto mais diversificado e criativo, mas os resultados são potencialmente menos coerentes.
  • topP: O Top-P altera a forma como o modelo recolhe amostras e seleciona tokens para a saída. A seleção Top-P seleciona o conjunto mais pequeno de tokens cuja probabilidade cumulativa excede um limite ou p e, em seguida, faz uma amostragem a partir dessa distribuição. O valor de topP varia entre 0 e 1. Por exemplo, se os tokens A, B e C tiverem uma probabilidade de 0, 3, 0, 2 e 0, 1, e o valor topP for 0.5, o modelo seleciona A ou B como o token seguinte através da temperatura e exclui C como candidato.
  • topK: O Top-K altera a forma como o modelo extrai amostras e seleciona tokens para a saída. O Top-K seleciona os tokens com maior probabilidade estatística para gerar uma resposta. O valor de topK representa um número de tokens de 1 a 40, que o modelo vai escolher antes de gerar uma resposta. Por exemplo, se os tokens A, B, C e D tiverem uma probabilidade de 0,6, 0,5, 0,2 e 0,1, e o valor de top-K for 3, o modelo seleciona A, B ou C como o token seguinte através da temperatura e exclui D como candidato.
  • maxOutputTokens: a definição maxOutputTokens altera o número máximo de tokens que podem ser gerados na resposta. Um valor mais baixo gera respostas mais curtas e um valor mais alto gera respostas potencialmente mais longas.

Para mais informações sobre os parâmetros de amostragem na API Gemini no Vertex AI, consulte os Parâmetros de geração de conteúdo.


Geração aumentada de recuperação (RAG)

A geração aumentada por obtenção (RAG) é uma técnica para melhorar a qualidade e a precisão do resultado do modelo de linguagem (conteúdo extenso) (MDI/CE), fundamentando-o com fontes de conhecimento que são obtidas após o modelo ter sido preparado. A RAG resolve as limitações dos GMLs, como imprecisões factuais, falta de acesso a informações atuais ou especializadas e incapacidade de citar fontes. Ao fornecer acesso a informações obtidas de bases de conhecimentos ou documentos fidedignos, incluindo dados com os quais o modelo não foi formado, dados proprietários ou dados confidenciais específicos do utilizador, a RAG permite que os MDIs gerem respostas mais fiáveis e contextualmente relevantes.

Quando um modelo que usa RAG recebe o seu comando, o processo RAG conclui estas fases:

  1. Recuperar: pesquise dados relevantes para o comando.
  2. Aumentar: acrescentar os dados obtidos ao comando.
  3. Gerar:
    1. Instruir o GML para criar um resumo ou uma resposta com base no comando aumentado.
    2. Apresentar a resposta.

Para mais informações sobre a Vertex AI e a RAG, consulte a vista geral do motor RAG da Vertex AI.


tokens

Um token é uma unidade básica de dados que um modelo base processa. Os modelos separam os dados num comando em tokens para processamento. O conjunto de todos os tokens usados por um modelo é denominado vocabulário. Os tokens podem ser carateres únicos, como z, palavras inteiras, como cat, ou partes de palavras mais longas.

Os tokenizadores separam palavras longas, como termos complexos ou técnicos, palavras compostas ou palavras com pontuação e carateres especiais, em vários tokens. O processo de dividir o texto em tokens é denominado tokenização. O objetivo da tokenização é criar tokens com significado semântico que podem ser recombinados para compreender a palavra original. Por exemplo, a palavra "predefinido" pode ser dividida nos seguintes tokens: "pre", "define", "ido".

Os tokens podem representar a entrada multimodal, como imagens, vídeos e áudio. As técnicas de incorporação transformam a entrada multimodal em representações numéricas que o modelo pode processar como tokens. Seguem-se os cálculos de tokens aproximados para um exemplo de entrada multimodal, independentemente do tamanho do ficheiro ou da apresentação:

  • Imagens: 258 símbolos no total
  • Vídeo: 263 tokens por segundo
  • Áudio: 32 tokens por segundo

Cada modelo tem um limite para o número de tokens que pode processar num comando e numa resposta. Além disso, os custos de utilização do modelo são calculados com base no número de tokens de entrada e saída. Para obter informações sobre como obter a contagem de tokens de um comando que foi enviado para um modelo Gemini, consulte o artigo Liste e conte tokens. Para informações sobre o custo dos modelos de IA generativa no Vertex AI, consulte os preços do Vertex AI.


ajuste

A otimização é o processo de adaptação de um modelo base para realizar tarefas específicas com maior precisão. O ajuste é feito através do ajuste de alguns ou todos os parâmetros do modelo ou da preparação de um modelo num conjunto de dados que contenha exemplos que repliquem as tarefas e os resultados pretendidos. A otimização é um processo iterativo, que pode ser complexo e dispendioso, mas tem o potencial de gerar melhorias significativas no desempenho. A otimização é mais eficaz quando tem um conjunto de dados etiquetado com mais de 100 exemplos e quer realizar tarefas complexas ou únicas em que as técnicas de pedidos não são suficientes.

Seguem-se as técnicas de otimização suportadas pelo Vertex AI:

  • Ajuste preciso completo: uma técnica que atualiza todos os parâmetros do modelo durante o processo de ajuste. O ajuste fino completo pode ser computacionalmente dispendioso e pode exigir muitos dados, mas também tem o potencial de alcançar os níveis de desempenho mais elevados, especialmente para tarefas complexas.
  • Ajuste eficiente em termos de parâmetros: uma técnica também conhecida como ajuste do adaptador. O ajuste eficiente em termos de parâmetros atualiza alguns dos parâmetros do modelo durante o processo de ajuste. A otimização eficiente em termos de parâmetros é mais eficiente em termos de recursos e mais rentável em comparação com a otimização total.
  • Ajuste supervisionado: uma técnica que prepara o modelo com base em pares de entrada-saída etiquetados. A otimização precisa supervisionada é usada frequentemente para tarefas que envolvem classificação, tradução e resumo.

Para mais informações sobre a otimização, consulte o artigo Introdução à otimização.