Sobre a Vertex AI Feature Store

O Feature Store da Vertex AI é um serviço de armazenamento de atributos gerenciado e nativo da nuvem integrado à Vertex AI. Ele simplifica o gerenciamento de atributos de ML e os processos de exibição on-line ao permitir que você gerencie os dados de recursos em uma tabela ou visualização do BigQuery. Em seguida, será possível disponibilizar recursos on-line diretamente da fonte de dados do BigQuery.

O Feature Store da Vertex AI provisiona recursos que permitem configurar a exibição on-line especificando suas fontes de dados de atributos. Em seguida, ele atua como uma camada de metadados em interface com as fontes de dados do BigQuery e disponibiliza os valores de atributos mais recentes diretamente do BigQuery para previsões on-line com latências baixas.

No Feature Store da Vertex AI, as tabelas ou visualizações do BigQuery que contêm os dados dos recursos formam coletivamente o armazenamento off-line. Você pode manter os valores dos recursos no armazenamento off-line, inclusive os dados históricos. Como todos os dados de atributos são mantidos no BigQuery, a Feature Store da Vertex AI não precisa provisionar um armazenamento off-line separado na Vertex AI. Além disso, se você quiser usar os dados no armazenamento off-line para treinar modelos de ML, poderá usar as APIs e os recursos no BigQuery para exportar ou buscar os dados.

O fluxo de trabalho para configurar e iniciar a exibição on-line usando o Feature Store da Vertex AI pode ser resumido da seguinte maneira:

  1. Prepare sua fonte de dados no BigQuery.

  2. Opcional: registre suas fontes de dados criando grupos de recursos e atributos.

  3. Configure a loja on-line e os recursos de visualização de atributos para conectar as fontes de dados de recursos a clusters de exibição on-line.

  4. Exibir os valores de atributos mais recentes on-line de uma visualização de atributos.

Recursos e modelo de dados do Vertex AI Feature Store

Nesta seção, explicamos os modelos de dados e recursos associados aos seguintes aspectos do Feature Store da Vertex AI:

Preparação da fonte de dados no BigQuery

Durante a exibição on-line, o Feature Store da Vertex AI usa dados de recursos das fontes de dados do BigQuery. Antes de configurar o registro de atributos ou os recursos de exibição on-line, armazene os dados de recursos em uma ou mais tabelas ou visualizações do BigQuery.

Em uma tabela ou visualização do BigQuery, cada coluna representa um atributo. Cada linha contém valores de recursos correspondentes a um ID exclusivo. Para mais informações sobre como preparar os dados de recursos no BigQuery, consulte Preparar a fonte de dados.

Por exemplo, na figura 1, a tabela do BigQuery inclui as seguintes colunas:

  • f1 e f2: colunas de atributos.

  • entity_id: uma coluna de ID contendo os IDs exclusivos para identificar cada registro de recurso.

  • feature_timestamp:uma coluna de carimbo de data/hora.

Uma visualização com os recursos f1 e f2 em formato de série temporal.
Figura 1. Exemplo de uma fonte de dados do BigQuery.

Como você prepara a fonte de dados no BigQuery, e não na Vertex AI, não é necessário criar recursos da Vertex AI nesta etapa.

Configuração do registro de recursos

Depois de preparar suas fontes de dados no BigQuery, é possível registrá-las, incluindo colunas de atributos específicas, no registro de atributos.

Registrar seus recursos é opcional. É possível disponibilizar recursos on-line mesmo que você não adicione suas fontes de dados do BigQuery ao registro de atributos. No entanto, registrar os recursos é vantajoso nos seguintes cenários:

  • Os dados podem conter várias instâncias do mesmo ID de entidade, e é necessário prepará-los em um formato de série temporal com uma coluna de carimbo de data/hora. Quando você registra seus atributos, a Feature Store da Vertex AI procura o carimbo de data/hora e exibe apenas os valores de atributos mais recentes.

  • Você quer registrar colunas de atributos específicas de uma fonte de dados.

  • Você quer agregar colunas específicas de várias fontes de dados para definir uma instância de visualização de recursos.

Recursos de registro de atributos

Para registrar dados de atributos, você precisa criar os seguintes recursos do Feature Store da Vertex AI:

  • Grupo de recursos (FeatureGroup): um recurso FeatureGroup está associado a uma tabela de origem específica do BigQuery. ou visualizar. Ele representa um agrupamento lógico de colunas de atributos, que são representadas por recursos Feature. Para saber mais sobre como criar um grupo de recursos, consulte Criar um grupo de recursos.

  • Recurso (Feature): um recurso Feature representa uma coluna específica que contém valores de recursos do fonte de dados de recurso associada ao recurso pai FeatureGroup. Para mais informações sobre como criar funcionalidades dentro de um grupo, consulte Criar um recurso.

Por exemplo, a figura 2 ilustra um grupo de recursos incluindo as colunas f1 e f2, provenientes de uma tabela do BigQuery associada ao grupo de recursos. A fonte de dados do BigQuery contém quatro colunas de atributos. Duas colunas são agregadas para formar o grupo de atributos.

Um grupo de recursos contendo os recursos f1 e f2 no formato de série temporal.
Figura 2. Exemplo de um FeatureGroup contendo duas colunas Feature de uma fonte de dados do BigQuery.

Configuração de exibição on-line

Para disponibilizar recursos para previsões on-line, você precisa definir e configurar pelo menos um cluster de exibição on-line e associá-lo à fonte de dados do recurso ou aos recursos de registro do recurso. No Feature Store da Vertex AI, o cluster de exibição on-line é chamado de instância de armazenamento on-line. Uma instância de armazenamento on-line pode conter várias instâncias de visualização de recursos, em que cada visualização está associada a uma fonte de dados de recursos.

Recursos de exibição on-line

Para configurar a exibição on-line, é preciso criar os seguintes recursos da Feature Store da Vertex AI:

  • Armazenamento on-line (FeatureOnlineStore): um recurso FeatureOnlineStore representa uma instância de cluster de exibição on-line e contém a configuração de exibição on-line, como o número de nós de exibição on-line. Uma instância de armazenamento on-line não especifica a origem dos dados do recurso, mas contém recursos FeatureView que especificam as fontes de dados de recursos no BigQuery ou no registro de atributos. Para saber mais sobre como criar uma instância de loja on-line, consulte Criar uma instância de loja on-line.

  • Visualização de recurso (FeatureView): um recurso FeatureView é uma coleção lógica de recursos em um instância de loja online. Ao criar uma visualização de elementos, é possível especificar o local da fonte de dados de elementos de uma das seguintes maneiras:

    • Associar um ou mais grupos de recursos e recursos a partir do registro de atributos. Um grupo de recursos especifica o local da fonte de dados do BigQuery. Um elemento dentro do grupo aponta para uma coluna de atributos específica dentro dessa fonte de dados.

    • Também é possível associar uma tabela ou visualização de origem do BigQuery.

    Para saber mais sobre como criar instâncias de visualização de recursos em uma loja on-line, consulte Criar uma visualização de recursos.

Por exemplo, a Figura 3 ilustra uma visualização de atributos que inclui as colunas f2 e f4, que são provenientes de dois grupos de recursos separados associados a uma tabela do BigQuery.

Uma visualização de recursos contendo os recursos f2 e f4 provenientes de dois grupos de recursos.
Figura 3. Exemplo de um FeatureView contendo recursos de dois grupos de recursos separados.

Exibição on-line

O Feature Store da Vertex AI oferece os seguintes tipos de exibição on-line para previsões on-line em tempo real:

  • A disponibilização on-line do Bigtable é útil para atender a grandes volumes de dados (terabytes de dados). Ela é semelhante à exibição on-line no Feature Store da Vertex AI (legado), mas fornece armazenamento em cache aprimorado para reduzir o uso excessivo do ponto de acesso.

  • Com a veiculação on-line otimizada (em pré-lançamento), você pode exibir recursos on-line em latências ultrabaixas. Embora as latências de exibição on-line dependam da carga de trabalho, a exibição on-line otimizada pode fornecer latências mais baixas do que a exibição on-line do Bigtable e é recomendada para a maioria dos cenários. No entanto, se você precisar disponibilizar grandes volumes de dados atualizados com frequência, use a disponibilização on-line do Bigtable.

    Para usar a exibição on-line otimizada, configure um endpoint público ou um endpoint dedicado do Private Service Connect.

Para saber como configurar a exibição on-line no Feature Store da Vertex AI depois de configurar os atributos, consulte Tipos de exibição on-line.

Exibição off-line para previsões em lote ou treinamento de modelos

Como você não precisa copiar ou importar os dados de atributos do BigQuery para um armazenamento off-line separado na Vertex AI, use os recursos de gerenciamento e exportação de dados do BigQuery para fazer o seguinte:

Para mais informações sobre machine learning usando o BigQuery, consulte Introdução ao BigQuery ML.

Termos do Vertex AI Feature Store

Engenharia de atributos
  • A engenharia de atributos é o processo de transformar dados brutos de machine learning (ML) em atributos que podem ser usados para treinar modelos de ML ou fazer previsões.

recurso
  • Em machine learning (ML), um atributo é uma característica ou atributo de uma instância ou entidade usada como entrada para treinar um modelo de ML ou fazer previsões.

Valor do atributo
  • Um valor de recurso corresponde ao valor real e mensurável de um recurso (atributo) de uma instância ou entidade. Uma coleção de valores de elementos da entidade única representa o registro do elemento correspondente à entidade.

carimbo de data/hora do recurso
  • Um carimbo de data/hora do recurso indica quando foi gerado o conjunto de valores de atributo em um registro específico de uma entidade.

registro de recursos
  • Um registro de elemento é uma agregação de todos os valores de elementos que descrevem os atributos de uma entidade única em um momento específico.

Termos relacionados ao registro de recursos

Registro do atributo
  • Um registro de atributos é uma interface central para gravar fontes de dados de atributos que você quer disponibilizar para previsões on-line.

grupo de recursos
  • Um grupo de recursos é um recurso de registro de atributos que corresponde a uma tabela ou visualização de origem do BigQuery que contém dados de recursos. Ela pode conter elementos e ser considerada um agrupamento lógico de colunas de atributos na fonte de dados.

disponibilização de recursos
  • A exibição de atributos é o processo de exportação ou busca de valores de atributos para treinamento ou inferência. Na Vertex AI, há dois tipos de exibição de atributos: exibição on-line e exibição off-line. A disponibilização on-line recupera os valores de atributos mais recentes de um subconjunto da fonte de dados de atributos para previsões on-line. A disponibilização off-line ou em lote exporta grandes volumes de dados de atributos para processamento off-line, como treinamento de modelo de ML.

Armazenamento off-line
  • O armazenamento off-line é uma instalação de armazenamento que armazena dados de atributos recentes e históricos, o que normalmente é usado para treinar modelos de ML. Um armazenamento off-line também contém os valores de atributos mais recentes, que podem ser exibidos para previsões on-line.

Repositório on-line
  • No gerenciamento de atributos, um armazenamento on-line é uma instalação de armazenamento dos valores de atributos mais recentes a serem exibidos para previsões on-line.

Visualização do recurso
  • Uma visualização de recursos é uma coleção lógica de recursos materializados de uma fonte de dados do BigQuery para uma instância de loja on-line. Uma visualização de recurso armazena e atualiza periodicamente os dados de recursos do cliente, que são atualizados periodicamente na origem do BigQuery. Ela é associada diretamente ao armazenamento de dados ou por associações com os recursos de registro do recurso.

Restrições de local

Todos os recursos da Vertex AI Feature Store precisam estar localizados na mesma região ou no mesmo local multirregional que sua fonte de dados do BigQuery. Por exemplo, se a fonte de dados de recursos estiver localizada em us-central1, você precisará criar sua instância de FeatureOnlineStore somente em us-central1 ou no local multirregional US.

Metadados do recurso

A Feature Store da Vertex AI é integrada ao Dataplex para fornecer recursos de governança de atributos, incluindo metadados. Instâncias de armazenamento on-line, visualizações de atributos e grupos de recursos são registrados automaticamente como recursos de dados no Data Catalog, um recurso do Dataplex que catálogo os metadados desses recursos. Use o recurso de pesquisa de metadados do Dataplex para procurar, visualizar e gerenciar os metadados desses recursos. Para mais informações sobre como pesquisar recursos do Vertex AI Feature Store no Dataplex, consulte Pesquisar metadados de recursos no Data Catalog.

Rótulos de atributos

É possível adicionar rótulos aos recursos durante ou após a criação deles. Para mais informações sobre como adicionar rótulos aos recursos atuais da Vertex AI Feature Store, consulte Atualizar rótulos.

Metadados da versão do recurso

O Feature Store da Vertex AI só oferece suporte à versão 0 dos recursos.

Gerenciamento de embedding e recuperação de vetores

O Feature Store da Vertex AI oferece suporte ao gerenciamento de incorporação. É possível armazenar embeddings no BigQuery como matrizes double normais. Usando os recursos de gerenciamento de incorporação da Feature Store da Vertex AI, é possível realizar pesquisas de similaridade vetorial para recuperar entidades vizinhas mais próximas de uma entidade ou valor de incorporação especificado.

Para usar o gerenciamento de incorporações no Feature Store da Vertex AI, faça o seguinte:

Para informações sobre como executar uma pesquisa de similaridade vetorial no Feature Store da Vertex AI, consulte Executar uma pesquisa de vetor para entidades.

Retenção de dados

O Feature Store da Vertex AI mantém os valores de atributos mais recentes para um ID exclusivo, com base no carimbo de data/hora associado aos valores dos atributos na fonte de dados. Não há limite de retenção de dados na loja on-line.

Como o armazenamento off-line é provisionado pelo BigQuery, as cotas ou os limites de retenção de dados do BigQuery podem ser aplicados à fonte de dados de recursos, incluindo valores históricos de atributos. Saiba mais sobre cotas e limites no BigQuery.

Cotas e limites

O Feature Store da Vertex AI aplica cotas e limites para ajudar você a gerenciar recursos definindo seus próprios limites de uso e para proteger a comunidade de usuários do Google Cloud, evitando picos de uso inesperados. Para usar os recursos do Feature Store da Vertex AI com eficiência sem atingir essas restrições, consulte as cotas e limites da Feature Store da Vertex AI.

Preços

Para informações sobre os preços de uso de recursos do Feature Store da Vertex AI, consulte Preços do Feature Store da Vertex AI.

Tutoriais de notebook

Disponibilização de atributos on-line e busca de dados do BigQuery com o Vertex AI Feature Store

Disponibilização de atributos on-line e busca de dados do BigQuery com o Vertex AI Feature Store

Neste notebook, você aprenderá a usar o Feature Store da Vertex AI para exibir e buscar valores de atributos on-line no BigQuery.

Executar no Colab | Visualizar no GitHub

Veiculação de atributos on-line e recuperação de vetores do BigQuery com o Vertex AI Feature Store (preview)

Veiculação de atributos on-line e recuperação de vetores do BigQuery com o Vertex AI Feature Store

Neste notebook, você vai aprender a usar o Feature Store da Vertex AI para exibição on-line e recuperação vetorial de valores de atributos no BigQuery.

Executar no Colab | Visualizar no GitHub

Exibição de atributos on-line e busca de dados do BigQuery com a exibição otimizada do Feature Store da Vertex AI (preview)

Exibição de atributos on-line e busca de dados do BigQuery com a exibição otimizada da Vertex AI Feature Store

Neste notebook, você vai aprender a usar a exibição on-line otimizada no Feature Store da Vertex AI para exibir e buscar valores de atributos do BigQuery.

Executar no Colab | Visualizar no GitHub

A seguir