Vista geral das APIs Embeddings

As incorporações são representações numéricas de texto, imagens ou vídeos que captam as relações entre as entradas. Os modelos de aprendizagem automática, especialmente os modelos de IA generativa, são adequados para criar incorporações através da identificação de padrões em grandes conjuntos de dados. As aplicações podem usar incorporações para processar e produzir linguagem, reconhecendo significados complexos e relações semânticas específicas do seu conteúdo. Interage com as incorporações sempre que conclui uma pesquisa no Google ou vê recomendações de streaming de música.

As incorporações funcionam convertendo texto, imagens e vídeos em matrizes de números de ponto flutuante, denominadas vetores. Estes vetores foram concebidos para captar o significado do texto, das imagens e dos vídeos. O comprimento da matriz de incorporação é denominado dimensionalidade do vetor. Por exemplo, uma passagem de texto pode ser representada por um vetor que contenha centenas de dimensões. Em seguida, ao calcular a distância numérica entre as representações vetoriais de dois fragmentos de texto, uma aplicação pode determinar a semelhança entre os objetos.

A Vertex AI suporta dois tipos de modelos de incorporações: texto e multimodal.

Exemplos de utilização de incorporações de texto

Seguem-se alguns exemplos de utilização comuns para incorporações de texto:

  • Pesquisa semântica: texto de pesquisa classificado por semelhança semântica.
  • Classificação: devolve a classe de itens cujos atributos de texto são semelhantes ao texto fornecido.
  • Agrupamento: agrupe itens cujos atributos de texto sejam semelhantes ao texto indicado.
  • Deteção de valores atípicos: devolve itens em que os atributos de texto estão menos relacionados com o texto fornecido.
  • Interface de conversação: agrupa conjuntos de frases que podem gerar respostas semelhantes, como num espaço de incorporação ao nível da conversa.

Exemplo de utilização: desenvolver um chatbot de recomendações de livros

Se quiser desenvolver um chatbot de recomendações de livros, a primeira coisa a fazer é usar uma rede neural profunda (DNN) para converter cada livro num vetor de incorporação, em que um vetor de incorporação representa um livro. Pode introduzir, como entrada na RNC, apenas o título do livro ou apenas o conteúdo de texto. Em alternativa, pode usar ambos em conjunto com quaisquer outros metadados que descrevam o livro, como o género.

As incorporações neste exemplo podem ser compostas por milhares de títulos de livros com resumos e o respetivo género, e podem ter representações de livros como Cimeiras Borrascosas de Emily Brontë e Persuasão de Jane Austen que são semelhantes entre si (pequena distância entre a representação numérica). Enquanto que a representação numérica do livro O Grande Gatsby de F. Scott Fitzgerald estaria mais longe, uma vez que o período, o género e o resumo são menos semelhantes.

As entradas são a principal influência na orientação do espaço de incorporação. Por exemplo, se só tivéssemos entradas de títulos de livros, dois livros com títulos semelhantes, mas resumos muito diferentes, poderiam estar próximos. No entanto, se incluirmos o título e o resumo, estes mesmos livros são menos semelhantes (mais distantes) no espaço de incorporação.

Ao trabalhar com a IA generativa, este chatbot de sugestões de livros pode resumir, sugerir e mostrar-lhe livros de que pode gostar (ou não gostar), com base na sua consulta.

Exemplos de utilização de incorporações multimodais

Seguem-se alguns exemplos de utilização comuns para incorporações multimodais:

  • Exemplos de utilização de imagens e texto:

    • Classificação de imagens: recebe uma imagem como entrada e prevê uma ou mais classes (etiquetas).
    • Pesquisa de imagens: pesquise imagens relevantes ou semelhantes.
    • Recomendações: gere recomendações de produtos ou anúncios com base em imagens.
  • Exemplos de utilização de imagens, texto e vídeo:

    • Recomendações: gere recomendações de produtos ou anúncios com base em vídeos (pesquisa de semelhanças).
    • Pesquisa de conteúdo de vídeo
    • Usar a pesquisa semântica: usar um texto como entrada e devolver um conjunto de frames classificados que correspondem à consulta.
    • Usar a pesquisa por semelhança:
      • Receber um vídeo como entrada e devolver um conjunto de vídeos que correspondem à consulta.
      • Receber uma imagem como entrada e devolver um conjunto de vídeos que correspondem à consulta.
    • Classificação de vídeo: recebe um vídeo como entrada e prevê uma ou mais classes.

Exemplo de utilização: experiência de retalho online

Os retalhistas online estão a tirar cada vez mais partido das incorporações multimodais para melhorar a experiência do cliente. Sempre que vê recomendações de produtos personalizadas enquanto faz compras e recebe resultados visuais de uma pesquisa de texto, está a interagir com uma incorporação.

Se quiser criar uma incorporação multimodal para um exemplo de utilização de retalho online, comece por processar cada imagem do produto para gerar uma incorporação de imagem única, que é uma representação matemática do respetivo estilo visual, paleta de cores, detalhes principais e muito mais. Em simultâneo, converta descrições de produtos, críticas de clientes e outros dados textuais relevantes em incorporações de texto que captem o respetivo significado semântico e contexto. Ao fundir estas incorporações de imagens e texto num motor de pesquisa e recomendações unificado, a loja pode oferecer recomendações personalizadas de artigos visualmente semelhantes com base no histórico de navegação e nas preferências de um cliente. Além disso, permite que os clientes pesquisem produtos através de descrições em linguagem natural, com o motor a obter e apresentar os artigos mais semelhantes visualmente que correspondem à respetiva consulta de pesquisa. Por exemplo, se um cliente pesquisar "vestido preto de verão", o motor de pesquisa pode apresentar vestidos pretos, com cortes de vestido de verão, feitos de material mais leve e que podem ser sem mangas. Esta poderosa combinação de compreensão visual e textual cria uma experiência de compras simplificada que melhora a interação e a satisfação dos clientes e, em última análise, pode aumentar as vendas.

O que se segue?