Acerca do Vertex AI Feature Store

O Vertex AI Feature Store é um serviço de Feature Store gerido e nativo da nuvem que é parte integrante do Vertex AI. Simplifica a gestão de funcionalidades de ML e os processos de publicação online, permitindo-lhe gerir os dados de funcionalidades numa tabela ou vista do BigQuery. Em seguida, pode publicar funcionalidades online diretamente a partir da origem de dados do BigQuery.

O Vertex AI Feature Store aprovisiona recursos que lhe permitem configurar o serviço online especificando as suas origens de dados de funcionalidades. Em seguida, atua como uma camada de metadados que interage com as origens de dados do BigQuery e disponibiliza os valores das funcionalidades mais recentes diretamente do BigQuery para previsões online com latências baixas.

No Vertex AI Feature Store, as tabelas ou as visualizações do BigQuery que contêm os dados das funcionalidades formam coletivamente o armazenamento offline. Pode manter os valores das funcionalidades, incluindo os dados do histórico das funcionalidades, na loja offline. Uma vez que todos os dados das funcionalidades são mantidos no BigQuery, o Vertex AI Feature Store não precisa de aprovisionar um armazenamento offline separado no Vertex AI. Além disso, se quiser usar os dados na loja offline para preparar modelos de ML, pode usar as APIs e as capacidades no BigQuery para exportar ou obter os dados.

O fluxo de trabalho para configurar e iniciar a publicação online através do Vertex AI Feature Store pode ser resumido da seguinte forma:

  1. Prepare a origem de dados no BigQuery.

  2. Opcional: registe as suas origens de dados criando grupos de atributos e atributos.

  3. Configure a loja online e os recursos de visualização de funcionalidades para associar as origens de dados de funcionalidades a clusters de publicação online.

  4. Apresente os valores das funcionalidades mais recentes online a partir de uma vista de funcionalidades.

Modelo de dados e recursos do Vertex AI Feature Store

Esta secção explica os modelos de dados e os recursos associados aos seguintes aspetos do Vertex AI Feature Store:

Preparação da origem de dados no BigQuery

Durante a publicação online, o Vertex AI Feature Store usa dados de caraterísticas de origens de dados do BigQuery. Antes de configurar o Feature Registry ou os recursos de publicação online, tem de armazenar os dados das funcionalidades numa ou mais tabelas ou vistas do BigQuery.

Numa tabela ou vista do BigQuery, cada coluna representa uma funcionalidade. Cada linha contém valores de caraterísticas correspondentes a um ID exclusivo. Para mais informações sobre como preparar os dados das funcionalidades no BigQuery, consulte o artigo Prepare a origem de dados.

Por exemplo, na figura 1, a tabela do BigQuery inclui as seguintes colunas:

  • f1 e f2: colunas de caraterísticas.

  • entity_id: uma coluna de ID que contém os IDs exclusivos para identificar cada registo de funcionalidades.

  • feature_timestamp: uma coluna de indicação de tempo.

Uma vista de funcionalidades que contém as funcionalidades f1 e f2 num formato de série cronológica.
Figura 1. Exemplo de uma origem de dados do BigQuery.

Uma vez que prepara a origem de dados no BigQuery e não no Vertex AI, não precisa de criar recursos do Vertex AI nesta fase.

Configuração do Feature Registry

Depois de preparar as origens de dados no BigQuery, pode registar essas origens de dados, incluindo colunas de caraterísticas específicas, no Feature Registry.

O registo das suas funcionalidades é opcional. Pode publicar funcionalidades online mesmo que não adicione as suas origens de dados do BigQuery ao Feature Registry. No entanto, o registo das suas funcionalidades é vantajoso nos seguintes cenários:

  • Os seus dados contêm várias instâncias do mesmo ID da entidade e tem de preparar os dados num formato de série cronológica com uma coluna de data/hora. Quando regista as suas funcionalidades, o Vertex AI Feature Store procura a data/hora e disponibiliza apenas os valores das funcionalidades mais recentes.

  • Quer registar colunas de caraterísticas específicas de uma origem de dados.

  • Quer agregar colunas específicas de várias origens de dados para definir uma instância de vista de funcionalidades.

  • Quer monitorizar as estatísticas das funcionalidades e detetar a variação das funcionalidades.

Existem dois tipos de recursos do Vertex AI Feature Store no Feature Registry:

Recursos do Feature Registry para dados de funcionalidades

Para registar os seus dados de caraterísticas no Feature Registry, tem de criar os seguintes recursos do Vertex AI Feature Store:

  • Grupo de funcionalidades (FeatureGroup): Um recurso FeatureGroupestá associado a uma tabela de origem ou a uma vista específica do BigQuery. Representa um agrupamento lógico de colunas de caraterísticas, que são representadas por recursos Feature. Um grupo de elementos também contém uma ou várias colunas de ID de entidade para identificar os registos de elementos. Se os dados das caraterísticas estiverem num formato de série cronológica, o grupo de caraterísticas também tem de conter uma coluna de data/hora. Para obter informações sobre como criar um grupo de funcionalidades, consulte o artigo Crie um grupo de funcionalidades.

  • Feature (Feature): Um recurso Feature representa uma coluna específica que contém valores de atributos da origem de dados de atributos associada ao respetivo recurso FeatureGroup principal. Para ver informações sobre como criar caraterísticas num grupo de caraterísticas, consulte o artigo Crie uma caraterística.

Por exemplo, a figura 2 ilustra um grupo de funcionalidades que inclui colunas de funcionalidades f1 e f2, provenientes de uma tabela do BigQuery associada ao grupo de funcionalidades. A origem de dados do BigQuery contém quatro colunas de caraterísticas. Duas colunas são agregadas para formar o grupo de caraterísticas. O grupo de funcionalidades também contém uma coluna de ID da entidade e uma coluna de data/hora da funcionalidade.

Um grupo de funcionalidades que contém as funcionalidades f1 e f2 no formato de série cronológica.
Figura 2. Exemplo de um FeatureGroup que contém duas colunas Feature provenientes de uma origem de dados do BigQuery.

Recursos do Feature Registry para monitorização de funcionalidades

Os recursos de monitorização de funcionalidades permitem-lhe monitorizar os dados das funcionalidades registados através dos recursos FeatureGroupe Feature. Pode criar os seguintes recursos relacionados com a monitorização de funcionalidades:

  • Monitor de funcionalidades (FeatureMonitor): Um recurso FeatureMonitor está associado a um recurso FeatureGroup e a uma ou mais funcionalidades nesse grupo de funcionalidades. Especifica o agendamento da monitorização. Pode criar vários recursos de monitorização de funcionalidades para configurar diferentes horários de monitorização para o mesmo conjunto de funcionalidades num grupo de funcionalidades. Por exemplo, se as funcionalidades f1 e f2 forem atualizadas a cada hora, mas as funcionalidades f3 e f4 forem atualizadas todos os dias, pode criar dois recursos de monitorização de funcionalidades para monitorizar estas funcionalidades de forma eficiente:

    • Monitor de funcionalidades fm1 que executa uma tarefa de monitorização a cada hora nas funcionalidades f1 e f2.

    • Monitor de funcionalidades fm2 que executa uma tarefa de monitorização todos os dias nas funcionalidades f3 e f4.

  • Tarefa de monitorização de funcionalidades (FeatureMonitorJob): Um recurso FeatureMonitorJobcontém as estatísticas e as informações das funcionalidades obtidas quando uma tarefa de monitorização de funcionalidades é executada. Também pode conter informações sobre anomalias, como a variação de funcionalidades, detetadas nos dados das funcionalidades.

Para mais informações sobre como criar recursos de monitorização de funcionalidades, consulte o artigo Monitorize funcionalidades quanto a anomalias.

Configuração da publicação online

Para publicar funcionalidades para previsões online, tem de definir e configurar, pelo menos, um cluster de publicação online e associá-lo à sua origem de dados de funcionalidades ou recursos do Feature Registry. No Vertex AI Feature Store, o cluster de publicação online chama-se instância da loja online. Uma instância de loja online pode conter várias instâncias de visualização de recursos, em que cada visualização de recursos está associada a uma origem de dados de recursos.

Recursos de publicação online

Para configurar a publicação online, tem de criar os seguintes recursos do Vertex AI Feature Store:

  • Loja online (FeatureOnlineStore): Um recurso FeatureOnlineStore representa uma instância de cluster de publicação online e contém a configuração de publicação online, como o número de nós de publicação online. Uma instância da loja online não especifica a origem dos dados das funcionalidades, mas contém recursos FeatureView que especificam as origens de dados das funcionalidades no BigQuery ou no Feature Registry. Para ver informações sobre como criar uma instância de loja online, consulte o artigo Crie uma instância de loja online.

  • Vista de funcionalidades (FeatureView): Um recurso FeatureView é uma coleção lógica de funcionalidades numa instância de loja online. Quando cria uma vista de recursos, pode especificar a localização da origem de dados de recursos de uma das seguintes formas:

    • Associe um ou mais grupos de funcionalidades e funcionalidades do Feature Registry. Um grupo de funcionalidades especifica a localização da origem de dados do BigQuery. Uma funcionalidade no grupo de funcionalidades aponta para uma coluna de funcionalidades específica nessa origem de dados.

    • Em alternativa, associe uma tabela ou uma vista de origem do BigQuery.

    Para obter informações sobre como criar instâncias de visualização de funcionalidades numa loja online, consulte o artigo Crie uma visualização de funcionalidades.

Por exemplo, a figura 3 ilustra uma vista de caraterísticas que compreende colunas de caraterísticas f2 e f4, que são provenientes de dois grupos de caraterísticas separados associados a uma tabela do BigQuery.

Uma vista de funcionalidades que contém as funcionalidades f2 e f4 provenientes de dois grupos de funcionalidades.
Figura 3. Exemplo de um FeatureView que contém funcionalidades de dois grupos de funcionalidades separados.

Publicação online

O Vertex AI Feature Store oferece os seguintes tipos de publicação online para previsões online em tempo real:

  • O serviço online do Bigtable é útil para servir grandes volumes de dados (terabytes de dados). É semelhante à publicação online no Vertex AI Feature Store (antigo) e oferece uma melhor capacidade de colocação em cache. O serviço online do Bigtable não suporta incorporações. Se precisar de publicar grandes volumes de dados que são atualizados com frequência e não precisar de publicar incorporações, use a publicação online do Bigtable.

  • A publicação online otimizada permite-lhe publicar online funcionalidades com latências muito baixas. Embora as latências de publicação online dependam da carga de trabalho, a publicação online otimizada pode oferecer latências mais baixas do que a publicação online do Bigtable e é recomendada para a maioria dos cenários. A publicação online otimizada também suporta a gestão de incorporações.

    Para usar a publicação online otimizada, tem de configurar um ponto final público ou um ponto final do Private Service Connect dedicado.

Para saber como configurar o fornecimento online no Vertex AI Feature Store depois de configurar as funcionalidades, consulte o artigo Tipos de fornecimento online.

Publicação offline para previsões em lote ou preparação de modelos

Uma vez que não precisa de copiar nem importar os dados das funcionalidades do BigQuery para um armazenamento offline separado no Vertex AI, pode usar as capacidades de gestão de dados e exportação do BigQuery para fazer o seguinte:

Para mais informações sobre a aprendizagem automática com o BigQuery, consulte o artigo Introdução ao BigQuery ML.

Termos do Vertex AI Feature Store

engenharia de funcionalidades
  • A engenharia de funcionalidades é o processo de transformação de dados não processados de aprendizagem automática em funcionalidades que podem ser usadas para preparar modelos de aprendizagem automática ou para fazer inferências.

funcionalidade
  • Na aprendizagem automática (AA), uma caraterística é uma característica ou um atributo de uma instância ou de uma entidade que é usado como entrada para preparar um modelo de AA ou para fazer inferências.

valor da funcionalidade
  • Um valor de funcionalidade corresponde ao valor real e mensurável de uma funcionalidade (atributo) de uma instância ou entidade. Uma coleção de valores de elementos para a entidade única representa o registo de elementos correspondente à entidade.

indicação de tempo da funcionalidade
  • Uma data/hora da caraterística indica quando o conjunto de valores de caraterísticas num registo de caraterísticas específico de uma entidade foi gerado.

registo de funcionalidade
  • Um registo de funcionalidade é uma agregação de todos os valores de funcionalidades que descrevem os atributos de uma entidade única num ponto específico no tempo.

Termos relacionados com o registo de funcionalidades

feature registry
  • Um registo de funcionalidades é uma interface central para registar origens de dados de funcionalidades que quer publicar para inferências online. Para mais informações, consulte o artigo Configuração do registo de funcionalidades.

grupo de funcionalidades
  • Um grupo de funcionalidades é um recurso de registo de funcionalidades que corresponde a uma tabela ou uma vista de propriedade de origem do BigQuery que contém dados de funcionalidades. Uma vista de funcionalidades pode conter funcionalidades e pode ser considerada um agrupamento lógico de colunas de funcionalidades na origem de dados.

publicação de funcionalidades
  • A publicação de funcionalidades é o processo de exportação ou obtenção de valores de funcionalidades para preparação ou inferência. No Vertex AI, existem dois tipos de publicação de funcionalidades: publicação online e publicação offline. A publicação online obtém os valores das funcionalidades mais recentes de um subconjunto da origem de dados de funcionalidades para inferências online. A publicação offline ou em lote exporta grandes volumes de dados de caraterísticas, incluindo dados do histórico, para processamento offline, como a preparação de modelos de AA.

loja física
  • A loja offline é uma instalação de armazenamento que armazena dados de funcionalidades recentes e do histórico, que são normalmente usados para preparar modelos de ML. Uma loja offline também contém os valores das funcionalidades mais recentes, que pode publicar para inferências online.

loja online
  • Na gestão de funcionalidades, uma loja online é uma instalação de armazenamento dos valores de funcionalidades mais recentes a serem publicados para inferências online.

vista de funcionalidades
  • Uma visualização de atributos é uma coleção lógica de atributos materializados a partir de uma origem de dados do BigQuery para uma instância da loja online. Uma visualização de funcionalidades armazena e atualiza periodicamente os dados de funcionalidades do cliente, que são atualizados periodicamente a partir da origem do BigQuery. Uma vista de funcionalidades está associada ao armazenamento de dados de funcionalidades diretamente ou através de associações a recursos do registo de funcionalidades.

Restrições de localização

Todos os recursos do Vertex AI Feature Store têm de estar localizados na mesma região ou na mesma localização multirregional que a sua origem de dados do BigQuery. Por exemplo, se a origem de dados de funcionalidades estiver localizada em us-central1, tem de criar a instância FeatureOnlineStore apenas em us-central1 ou na localização multirregional US.

Metadados de funcionalidades

O Vertex AI Feature Store está integrado com o Dataplex Universal Catalog para oferecer capacidades de administração de funcionalidades, incluindo metadados de funcionalidades. As instâncias de lojas online, as visualizações de funcionalidades e os grupos de funcionalidades são registados automaticamente como recursos de dados no catálogo de dados, uma funcionalidade que cataloga metadados destes recursos. Em seguida, pode usar a capacidade de pesquisa de metadados do Dataplex Universal Catalog para pesquisar, ver e gerir os metadados destes recursos. Para mais informações sobre a pesquisa de recursos do Vertex AI Feature Store, consulte o artigo Pesquise metadados de recursos no Data Catalog.

Etiquetas de funcionalidades

Pode adicionar etiquetas aos recursos durante ou após a criação dos mesmos. Para mais informações sobre como adicionar etiquetas a recursos existentes do Vertex AI Feature Store, consulte o artigo Atualize etiquetas.

Metadados da versão do recurso

O Vertex AI Feature Store só suporta a versão 0 para funcionalidades.

Monitorização de funcionalidades

O Vertex AI Feature Store permite-lhe configurar a monitorização de funcionalidades para obter estatísticas de funcionalidades e detetar anomalias nos dados das funcionalidades. Pode configurar horários de monitorização para executar tarefas de monitorização periodicamente ou executar manualmente uma tarefa de monitorização. Para mais informações sobre a configuração da monitorização de funcionalidades e a execução de tarefas de monitorização de funcionalidades, consulte o artigo Monitorize funcionalidades quanto a anomalias.

Gestão de incorporações e obtenção de vetores

O serviço online otimizado no Vertex AI Feature Store suporta a gestão de incorporações. Pode armazenar incorporações no BigQuery como matrizes double normais. Ao usar as capacidades de gestão de incorporações do Vertex AI Feature Store, pode realizar pesquisas de semelhança vetorial para obter entidades que sejam os vizinhos mais próximos aproximados de uma entidade ou um valor de incorporação especificado.

Para usar a gestão de incorporações no Vertex AI Feature Store, tem de fazer o seguinte:

Para informações sobre como realizar uma pesquisa de similaridade vetorial no Vertex AI Feature Store, consulte o artigo Realize uma pesquisa vetorial de entidades.

Retenção de dados

O Vertex AI Feature Store retém os valores de caraterísticas mais recentes para um ID único, com base na data/hora associada aos valores de caraterísticas na origem de dados. Não existe um limite de retenção de dados na loja online.

Uma vez que a loja offline é aprovisionada pelo BigQuery, podem aplicar-se limites de retenção de dados ou quotas do BigQuery à origem de dados de atributos, incluindo valores de atributos do histórico. Saiba mais acerca das quotas e dos limites no BigQuery.

Quotas e limites

O Vertex AI Feature Store aplica quotas e limites para ajudar a gerir recursos através da definição de limites de utilização e proteger a comunidade de utilizadores doGoogle Cloud impedindo picos imprevistos na utilização. Para usar eficientemente os recursos do Vertex AI Feature Store sem atingir estas restrições, reveja as quotas e os limites do Vertex AI Feature Store.

Preços

Para informações sobre os preços de utilização de recursos do Vertex AI Feature Store, consulte os preços do Vertex AI Feature Store.

Tutoriais do bloco de notas

Use os seguintes exemplos e tutoriais para saber mais sobre o Vertex AI Feature Store.

Publicação online de caraterísticas e obtenção de dados do BigQuery com a publicação online do Bigtable do Vertex AI Feature Store

Neste tutorial, vai aprender a usar o serviço online do Bigtable no Vertex AI Feature Store para o serviço online e a obtenção de valores de caraterísticas no BigQuery.

Abrir no Colab  |  Abrir no Colab Enterprise  |  Ver no GitHub

Serviço de funcionalidades online e obtenção de dados do BigQuery com o serviço online otimizado do Vertex AI Feature Store

Neste tutorial, vai aprender a usar a publicação online otimizada no Vertex AI Feature Store para publicar e obter valores de caraterísticas do BigQuery.

Abrir no Colab  |  Abrir no Colab Enterprise  |  Ver no GitHub

Serviço de funcionalidades online e obtenção de vetores de dados do BigQuery com o Vertex AI Feature Store

Neste tutorial, vai aprender a usar o Vertex AI Feature Store para o fornecimento online e a obtenção de vetores de valores de caraterísticas no BigQuery.

Abrir no Colab  |  Abrir no Colab Enterprise  |  Ver no GitHub

Agentes de serviço de visualização de funcionalidades do Vertex AI Feature Store

Neste tutorial, vai aprender a ativar os agentes de serviço de visualização de funcionalidades e a conceder a cada visualização de funcionalidades acesso aos dados de origem específicos que são usados.

Abrir no Colab  |  Abrir no Colab Enterprise  |  Ver no GitHub

Tutorial de fundamentação de MDIs com base no Vertex AI Feature Store

Neste tutorial, vai aprender a dividir os dados fornecidos pelos utilizadores em partes e, em seguida, gerar vetores de incorporação para cada parte através de um grande modelo de linguagem (GML) com capacidades de geração de incorporações. Em seguida, o conjunto de dados de vetores de incorporação resultante pode ser carregado no Vertex AI Feature Store, o que permite uma obtenção rápida de caraterísticas e um serviço online eficiente.

Abrir no Colab  |  Abrir no Colab Enterprise  |  Ver no GitHub

Crie uma aplicação RAG de IA gen com o Vertex AI Feature Store e o BigQuery

Neste tutorial, vai aprender a criar um sistema de pesquisa vetorial de baixa latência para a sua aplicação de IA gen usando a pesquisa vetorial do BigQuery e o Vertex AI Feature Store.

Abrir no Colab  |  Abrir no Colab Enterprise  |  Ver no GitHub

Configure a Política IAM no Vertex AI Feature Store

Neste tutorial, vai aprender a configurar uma política de IAM para controlar o acesso a recursos e dados armazenados no Vertex AI Feature Store.

Abrir no Colab  |  Abrir no Colab Enterprise  |  Ver no GitHub

O que se segue?