Introdução ao gerenciamento de atributos na Vertex AI

Em machine learning (ML), os recursos são atributos característicos de uma instância ou entidade que podem ser usados para treinar modelos ou fazer previsões on-line. Os recursos são gerados pela transformação de dados brutos de ML em atributos mensuráveis e compartilháveis com técnicas de engenharia de atributos, geralmente chamadas de transformações de atributos.

Gerenciamento de atributos refere-se ao processo de criar, manter, compartilhar e disponibilizar recursos de ML armazenados em um local ou repositório centralizado. O gerenciamento de atributos facilita a reutilização de atributos para treinar e treinar novamente modelos, reduzindo o ciclo de vida das implantações de IA e ML.

Um produto ou serviço que inclui serviços de gerenciamento de recursos para armazenar, descobrir, compartilhar e disponibilizar atributos de ML é chamado de armazenamento de recursos. A Vertex AI incorpora os seguintes serviços do Feature Store:

Nesta página, apresentamos e comparamos os dois serviços de gerenciamento de recursos e fornecemos uma visão geral dos recursos deles. Ele também descreve como migrar um armazenamento de recursos atual no Feature Store da Vertex AI (legado) para o novo Feature Store da Vertex AI.

Vertex AI Feature Store

O Feature Store da Vertex AI oferece uma nova abordagem para o gerenciamento de atributos, permitindo que você mantenha e disponibilize os dados dos atributos a partir de uma fonte de dados do BigQuery. Nessa abordagem, o Feature Store da Vertex AI atua como uma camada de metadados que fornece recursos de exibição on-line para sua fonte de dados de atributos no BigQuery e permite disponibilizar atributos on-line com base nesses dados. Não é necessário copiar ou importar os dados para um armazenamento off-line separado na Vertex AI.

O Feature Store da Vertex AI é integrado ao Dataplex para monitorar metadados de recursos. Ele também aceita embeddings e permite realizar pesquisas de similaridade vetorial para vizinhos mais próximos.

O Feature Store da Vertex AI é otimizado para disponibilização com latência ultrabaixa e permite o seguinte:

  • Armazene e mantenha seus dados de recursos off-line no BigQuery, aproveitando os recursos de gerenciamento de dados do BigQuery.

  • Adicione e reutilize recursos no registro deles.

  • Disponibilize recursos para previsões on-line com latências baixas usando a veiculação on-line do Bigtable ou com latências ultrabaixas usando a veiculação on-line otimizada.

  • Armazene embeddings nos dados de recursos e realize pesquisas de similaridade vetorial.

  • Monitore metadados de recursos no Dataplex.

Para saber mais sobre o Feature Store da Vertex AI, consulte a documentação do Feature Store da Vertex AI.

Feature Store da Vertex AI (legado)

O Feature Store da Vertex AI (legado) fornece um repositório centralizado para armazenar, organizar e disponibilizar dados de atributos de ML. Ele provisiona uma hierarquia de recursos que encapsula um armazenamento on-line e um off-line na Vertex AI. O armazenamento on-line exibe os valores de atributos mais recentes para previsões on-line. O armazenamento off-line armazena e mantém dados de recursos (incluindo dados históricos) que você pode disponibilizar em lote para treinamento de modelos de ML.

O Feature Store (legado) da Vertex AI é um serviço de gerenciamento de atributos totalmente funcional que permite fazer o seguinte:

  • Dados de recursos de importação em lote ou por streaming para o armazenamento off-line de uma fonte de dados, como um bucket do Cloud Storage ou uma fonte do BigQuery.

  • Disponibilize recursos on-line para previsões.

  • Disponibilize ou exporte recursos em lote para treinamento ou análise de modelos de ML.

  • Definir políticas de Identity and Access Management (IAM) nos recursos EntityType e Featurestore.

  • Gerencie recursos do Feature Store no console do Google Cloud.

O Feature Store da Vertex AI (legado) não inclui recursos de gerenciamento de incorporações ou recuperação de vetores. Se você precisar gerenciar embeddings nos seus dados de recursos ou realizar pesquisas de similaridade vetorial, considere mudar para a Vertex AI Feature Store. Para informações sobre como migrar para o Feature Store da Vertex AI, consulte Migrar para o Feature Store da Vertex AI.

Para saber mais sobre o Feature Store da Vertex AI (legado), consulte a documentação da Vertex AI Feature Store (legado).

Comparação entre o Feature Store da Vertex AI e o Feature Store da Vertex AI (legado)

A tabela a seguir compara os vários aspectos da Vertex AI Feature Store (legado) e o novo da Vertex AI Feature Store:

Categoria Vertex AI Feature Store Feature Store da Vertex AI (legado)
Modelos de dados
Hierarquia de recursos (armazenamento on-line e off-line) A hierarquia de recursos no armazenamento on-line é a seguinte: FeatureOnlineStore -> FeatureView
  • FeatureOnlineStore contém os parâmetros de configuração apenas para armazenamento e recuperação on-line. Ele pode conter vários recursos FeatureView.
  • FeatureView é um agrupamento lógico de recursos em uma solicitação de exibição on-line. É um único recurso que substitui tipos e funcionalidades de entidade. Os dados na visualização de recursos refletem os valores de recursos mais recentes no armazenamento do BigQuery.
Não há recursos de armazenamento off-line, já que os dados residem no BigQuery.
A hierarquia de recursos é a seguinte: Featurestore -> EntityType -> Feature
  • Featurestore contém os parâmetros de configuração para lojas on-line e off-line. Ele pode conter vários recursos EntityType.
  • EntityType é um conjunto de atributos semanticamente relacionados. Ela pode ter várias instâncias chamadas de entidades, que podem conter diversos recursos de Feature.
  • Feature é uma propriedade ou um atributo de EntityType.
Hierarquia de recursos (registro de atributos) A hierarquia de recursos no registro é a seguinte: FeatureGroup -> Feature
  • FeatureGroup registra o local da fonte de dados do BigQuery. Ele pode conter vários recursos Feature.
  • Feature corresponde a uma coluna na fonte de dados registrada com o grupo de recursos.
Não existe um registro de atributos na Vertex AI Feature Store (legado).
Gerenciamento de atributos
Lojas on-line e off-line Você precisa criar uma instância de loja on-line e definir visualizações de atributos.
O Feature Store da Vertex AI não requer um armazenamento off-line separado porque a fonte de dados do BigQuery constitui o armazenamento off-line.
Quando você provisiona um Feature Store, a Vertex AI Feature Store (legado) cria lojas on-line e off-line separadas.
Importação de atributos Você não precisa importar dados para armazenamentos off-line, pois eles ficam no BigQuery e você pode usá-los diretamente para necessidades off-line. Para casos de uso de exibição on-line, registre uma tabela do BigQuery ou visualize como uma visualização de recursos, que copia dados de recursos para o armazenamento on-line. O Feature Store da Vertex AI atualiza os dados no armazenamento on-line durante a sincronização de dados. É preciso importar dados de recursos para armazenamentos off-line e on-line usando a importação em lote ou por streaming de uma fonte externa, como uma tabela ou visualização do BigQuery.
Movimentação de dados entre lojas on-line e off-line O Feature Store da Vertex AI usa o BigQuery como armazenamento off-line e copia apenas os valores de atributos mais recentes para o armazenamento on-line. Não há armazenamento off-line separado provisionado na Vertex AI. Os valores dos atributos são copiados para o armazenamento off-line e, subsequentemente, para o armazenamento on-line.
Disponibilização de atributos
Disponibilização off-line Para interagir com o armazenamento off-line, você precisa usar as APIs BigQuery. Os recursos subjacentes são os mesmos. Para interagir com o armazenamento off-line, que é gerenciado pela Vertex AI Feature Store (legado), você precisa usar as APIs da Vertex AI. Exemplos dessas interações são as pesquisas pontuais e a exportação de recursos.
Exibição on-line

O Feature Store da Vertex AI oferece dois tipos de exibição on-line:

  • A veiculação on-line do Bigtable é semelhante à veiculação on-line do Vertex AI Feature Store (legado), mas fornece armazenamento em cache aprimorado para mitigar o uso excessivo do ponto de acesso. Ela é útil para grandes volumes de dados (terabytes de dados).
  • A veiculação on-line otimizada é adequada para necessidades de veiculação com latência ultrabaixa.

Cada solicitação de leitura on-line recupera todos os recursos predefinidos em uma visualização de recursos sem processamento adicional, o que resulta em latências menores.

O Feature Store da Vertex AI (legado) oferece apenas um tipo de exibição on-line. Você pode especificar as entidades e os recursos para buscar os dados deles.
Interfaces e APIs
Recursos do console do Google Cloud Use o console do Google Cloud para criar e gerenciar recursos, como instâncias de armazenamento on-line, instâncias de visualização de atributos, grupos de atributos e atributos. Também é possível visualizar a lista de repositórios on-line e informações sobre a linhagem de atributos. Use o console do Google Cloud para executar a maioria das tarefas de gerenciamento, incluindo o monitoramento da criação de recursos.
APIs de criação de recursos Inclui APIs para criar os recursos FeatureOnlineStore, FeatureView, FeatureGroup e Feature. Estes recursos permitem configurar o registro de atributos e o armazenamento on-line. Para o armazenamento off-line, é usado o BigQuery. Inclui APIs para criar recursos Featurestore, EntityType e Feature que são usados nas lojas on-line e off-line.
APIs de importação em lote (armazenamento off-line) Não requer APIs para importação em lote para o armazenamento off-line, porque não é necessária uma etapa de importação em lote para o armazenamento off-line. Usa APIs da Vertex AI para importação em lote para o armazenamento off-line.
APIs de importação em lote (loja on-line) Copia periodicamente os dados do BigQuery para o armazenamento on-line durante a sincronização de dados. Usa APIs da Vertex AI na importação em lote para o armazenamento on-line.
APIs de importação de streaming (armazenamento off-line) Não requer APIs para importar streaming para o armazenamento off-line, porque não é necessária uma etapa separada de importação de streaming para o armazenamento off-line. Usa a Vertex AI para fazer a importação de streaming para o armazenamento off-line.
APIs de importação de streaming (armazenamento on-line) A importação de streaming não é compatível. Usa APIs da Vertex AI para fazer a importação de streaming para o armazenamento on-line.
APIs de disponibilização em lote Usa APIs do BigQuery para exibir dados em lote diretamente das fontes de dados do BigQuery definidas nas visualizações de atributos. Usa as APIs Vertex AI para exibir em lote dados de atributos.
APIs de exibição on-line Usa o FetchFeatureValues(FetchFeatureValuesRequest) API. Usa a API ReadFeatureValues(ReadFeatureValuesRequest) para exibição on-line.

Migrar para o Feature Store da Vertex AI

Os recursos e dados de recursos da Vertex AI Feature Store (legado) não estão prontamente disponíveis na Vertex AI Feature Store. Se você é um usuário da Vertex AI Feature Store (legado) e quer migrar seu projeto para o Feature Store da Vertex AI, execute as etapas a seguir. Como a hierarquia de recursos na Feature Store da Vertex AI é diferente da hierarquia na Feature Store da Vertex AI (legado), vai ser necessário criar manualmente os recursos após a migração. dados.

  1. Se os dados de recursos ainda não estiverem disponíveis no BigQuery, exporte-os para o BigQuery e crie tabelas e visualizações do BigQuery. Siga as diretrizes de preparação de dados ao exportar e preparar os dados. Exemplo:

    • Cada elemento corresponde a uma coluna. Os IDs de entidade podem ser uma coluna separada, que é possível identificar como a coluna ID.

    • O Feature Store da Vertex AI não tem os recursos EntityType e Entity. Forneça os valores de recursos para cada entidade na linha correspondente ao ID da entidade.

  2. Opcional: registre sua fonte de dados de elementos adicionando grupos de atributos e recursos. Para mais informações, consulte Criar um grupo de recursos e Criar um recurso.

  3. Configurar a exibição on-line criando instâncias de armazenamento on-line e visualização de atributos com base nos dados do atributo.

A seguir