O Feature Store da Vertex AI é um serviço de armazenamento de atributos gerenciado e nativo da nuvem integrado à Vertex AI. Ele simplifica o gerenciamento de atributos de ML e os processos de exibição on-line ao permitir que você gerencie os dados de recursos em uma tabela ou visualização do BigQuery. Em seguida, será possível disponibilizar recursos on-line diretamente da fonte de dados do BigQuery.
O Feature Store da Vertex AI provisiona recursos que permitem configurar a exibição on-line especificando suas fontes de dados de atributos. Em seguida, ele atua como uma camada de metadados em interface com as fontes de dados do BigQuery e disponibiliza os valores de atributos mais recentes diretamente do BigQuery para previsões on-line com latências baixas.
No Feature Store da Vertex AI, as tabelas ou visualizações do BigQuery que contêm os dados dos recursos formam coletivamente o armazenamento off-line. Você pode manter os valores dos recursos no armazenamento off-line, inclusive os dados históricos. Como todos os dados de atributos são mantidos no BigQuery, a Feature Store da Vertex AI não precisa provisionar um armazenamento off-line separado na Vertex AI. Além disso, se você quiser usar os dados no armazenamento off-line para treinar modelos de ML, poderá usar as APIs e os recursos no BigQuery para exportar ou buscar os dados.
O fluxo de trabalho para configurar e iniciar a exibição on-line usando o Feature Store da Vertex AI pode ser resumido da seguinte maneira:
Prepare sua fonte de dados no BigQuery.
Opcional: registre suas fontes de dados criando grupos de recursos e atributos.
Configure a loja on-line e os recursos de visualização de atributos para conectar as fontes de dados de recursos a clusters de exibição on-line.
Exibir os valores de atributos mais recentes on-line de uma visualização de atributos.
Recursos e modelo de dados do Vertex AI Feature Store
Nesta seção, explicamos os modelos de dados e recursos associados aos seguintes aspectos do Feature Store da Vertex AI:
Preparação da fonte de dados no BigQuery
Durante a veiculação on-line, o Feature Store da Vertex AI usa dados de recursos das fontes de dados do BigQuery. Antes de configurar o registro de atributos ou os recursos de veiculação on-line, armazene os dados de recursos em uma ou mais tabelas ou visualizações do BigQuery.
Em uma tabela ou visualização do BigQuery, cada coluna representa um atributo. Cada linha contém valores de recursos correspondentes a um ID exclusivo. Para mais informações sobre como preparar os dados de recursos no BigQuery, consulte Preparar a fonte de dados.
Por exemplo, na figura 1, a tabela do BigQuery inclui as seguintes colunas:
f1
ef2
: colunas de atributos.entity_id
: uma coluna de ID contendo os IDs exclusivos para identificar cada registro de recurso.feature_timestamp
:uma coluna de carimbo de data/hora.
Como você prepara a fonte de dados no BigQuery, e não na Vertex AI, não é necessário criar recursos da Vertex AI nesta etapa.
Configuração do registro de recursos
Depois de preparar suas fontes de dados no BigQuery, é possível registrá-las, incluindo colunas de atributos específicas, no registro de atributos.
Registrar seus recursos é opcional. É possível disponibilizar recursos on-line mesmo que você não adicione suas fontes de dados do BigQuery ao registro de atributos. No entanto, registrar os recursos é vantajoso nos seguintes cenários:
Os dados podem conter várias instâncias do mesmo ID de entidade, e é necessário prepará-los em um formato de série temporal com uma coluna de carimbo de data/hora. Quando você registra seus atributos, a Feature Store da Vertex AI procura o carimbo de data/hora e exibe apenas os valores de atributos mais recentes.
Você quer registrar colunas de atributos específicas de uma fonte de dados.
Você quer agregar colunas específicas de várias fontes de dados para definir uma instância de visualização de recursos.
Recursos de registro de atributos
Para registrar dados de atributos, você precisa criar os seguintes recursos do Feature Store da Vertex AI:
Grupo de recursos (
FeatureGroup
): um recursoFeatureGroup
está associado a uma tabela de origem específica do BigQuery. ou visualizar. Ele representa um agrupamento lógico de colunas de atributos, que são representadas por recursosFeature
. Para saber mais sobre como criar um grupo de recursos, consulte Criar um grupo de recursos.Recurso (
Feature
): um recursoFeature
representa uma coluna específica que contém valores de recursos do fonte de dados de recurso associada ao recurso paiFeatureGroup
. Para mais informações sobre como criar funcionalidades dentro de um grupo, consulte Criar um recurso.
Por exemplo, a figura 2 ilustra um grupo de recursos incluindo as colunas f1
e f2
, provenientes de uma tabela do BigQuery associada ao grupo de recursos. A fonte de dados do BigQuery contém quatro colunas de atributos. Duas colunas são agregadas para formar o grupo de atributos.
Configuração de veiculação on-line
Para disponibilizar recursos para previsões on-line, você precisa definir e configurar pelo menos um cluster de veiculação on-line e associá-lo à fonte de dados do recurso ou aos recursos de registro do recurso. No Feature Store da Vertex AI, o cluster de veiculação on-line é chamado de instância de armazenamento on-line. Uma instância de armazenamento on-line pode conter várias instâncias de visualização de recursos, em que cada visualização está associada a uma fonte de dados de recursos.
Recursos de exibição on-line
Para configurar a exibição on-line, é preciso criar os seguintes recursos da Feature Store da Vertex AI:
Armazenamento on-line (
FeatureOnlineStore
): um recursoFeatureOnlineStore
representa uma instância de cluster de veiculação on-line e contém a configuração de veiculação on-line, como o número de nós de veiculação on-line. Uma instância de armazenamento on-line não especifica a origem dos dados do recurso, mas contém recursosFeatureView
que especificam as fontes de dados de recursos no BigQuery ou no registro de atributos. Para saber mais sobre como criar uma instância de loja on-line, consulte Criar uma instância de loja on-line.Visualização de recurso (
FeatureView
): um recursoFeatureView
é uma coleção lógica de recursos em um instância de loja online. Ao criar uma visualização de elementos, é possível especificar o local da fonte de dados de elementos de uma das seguintes maneiras:Associar um ou mais grupos de recursos e recursos a partir do registro de atributos. Um grupo de recursos especifica o local da fonte de dados do BigQuery. Um elemento dentro do grupo aponta para uma coluna de atributos específica dentro dessa fonte de dados.
Também é possível associar uma tabela ou visualização de origem do BigQuery.
Para saber mais sobre como criar instâncias de visualização de recursos em uma loja on-line, consulte Criar uma visualização de recursos.
Por exemplo, a Figura 3 ilustra uma visualização de atributos que inclui as colunas f2
e f4
, que são provenientes de dois grupos de recursos separados associados a uma tabela do BigQuery.
Exibição on-line
O Feature Store da Vertex AI oferece os seguintes tipos de veiculação on-line para previsões on-line em tempo real:
A disponibilização on-line do Bigtable é útil para atender a grandes volumes de dados (terabytes de dados). Ela é semelhante à veiculação on-line no Feature Store da Vertex AI (legado), mas fornece armazenamento em cache aprimorado para reduzir o uso excessivo do ponto de acesso. A exibição on-line do Bigtable não oferece suporte embeddings.
Com a veiculação on-line otimizada, é possível exibir recursos on-line em latências muito baixas. Embora as latências de veiculação on-line dependam da carga de trabalho, a veiculação on-line otimizada pode fornecer latências mais baixas do que a veiculação on-line do Bigtable e é recomendada para a maioria dos cenários. A exibição on-line otimizada também é compatível com o gerenciamento de embeddings. No entanto, se você precisar disponibilizar grandes volumes de dados que são frequentemente atualizado e não precisar disponibilizar embeddings, use a disponibilização on-line do Bigtable.
Para usar a veiculação on-line otimizada, configure um endpoint público ou um endpoint dedicado do Private Service Connect.
Para saber como configurar a veiculação on-line no Feature Store da Vertex AI depois de configurar os atributos, consulte Tipos de veiculação on-line.
Exibição off-line para previsões em lote ou treinamento de modelos
Como você não precisa copiar ou importar os dados de atributos do BigQuery para um armazenamento off-line separado na Vertex AI, use os recursos de gerenciamento e exportação de dados do BigQuery para fazer o seguinte:
Dados do recurso de consulta, incluindo dados históricos em um determinado momento.
Pré-processar e exportar dados de recursos para treinamento de modelo e previsões em lote.
Para mais informações sobre machine learning usando o BigQuery, consulte Introdução ao BigQuery ML.
Termos do Vertex AI Feature Store
Termos relacionados à engenharia de atributos
Engenharia de atributos
- A engenharia de atributos é o processo de transformar dados brutos de machine learning (ML) em atributos que podem ser usados para treinar modelos de ML ou fazer previsões.
recurso
- Em machine learning (ML), um atributo é uma característica ou atributo de uma instância ou entidade usada como entrada para treinar um modelo de ML ou fazer previsões.
Valor do atributo
- Um valor de recurso corresponde ao valor real e mensurável de um recurso (atributo) de uma instância ou entidade. Uma coleção de valores de elementos da entidade única representa o registro do elemento correspondente à entidade.
carimbo de data/hora do recurso
- Um carimbo de data/hora do recurso indica quando foi gerado o conjunto de valores de atributo em um registro específico de uma entidade.
registro de recursos
- Um registro de elemento é uma agregação de todos os valores de elementos que descrevem os atributos de uma entidade única em um momento específico.
Termos relacionados ao registro de recursos
Registro do atributo
- Um registro de atributos é uma interface central para gravar fontes de dados de atributos que você quer disponibilizar para previsões on-line. Para mais informações, consulte Configuração do Feature Registry.
grupo de recursos
- Um grupo de recursos é um recurso de registro de atributos que corresponde a uma tabela ou visualização de origem do BigQuery que contém dados de recursos. Ela pode conter elementos e ser considerada um agrupamento lógico de colunas de atributos na fonte de dados.
Termos relacionados à veiculação de recursos
disponibilização de recursos
- A exibição de atributos é o processo de exportação ou busca de valores de atributos para treinamento ou inferência. Na Vertex AI, há dois tipos de exibição de atributos: exibição on-line e exibição off-line. A disponibilização on-line recupera os valores de atributos mais recentes de um subconjunto da fonte de dados de atributos para previsões on-line. A disponibilização off-line ou em lote exporta grandes volumes de dados de atributos para processamento off-line, como treinamento de modelo de ML.
Armazenamento off-line
- O armazenamento off-line é uma instalação de armazenamento que armazena dados de atributos recentes e históricos, o que normalmente é usado para treinar modelos de ML. Um armazenamento off-line também contém os valores de atributos mais recentes, que podem ser exibidos para previsões on-line.
Repositório on-line
- No gerenciamento de atributos, um armazenamento on-line é uma instalação de armazenamento dos valores de atributos mais recentes a serem exibidos para previsões on-line.
Visualização do recurso
- Uma visualização de recursos é uma coleção lógica de recursos materializados de uma fonte de dados do BigQuery para uma instância de loja on-line. Uma visualização de recurso armazena e atualiza periodicamente os dados de recursos do cliente, que são atualizados periodicamente na origem do BigQuery. Ela é associada diretamente ao armazenamento de dados ou por associações com os recursos de registro do recurso.
Restrições de local
Todos os recursos da Vertex AI Feature Store precisam estar localizados na mesma
região ou no mesmo local multirregional que sua fonte de dados
do BigQuery. Por exemplo, se a fonte de dados de recursos estiver localizada em us-central1
,
você precisará criar sua instância de FeatureOnlineStore
somente em us-central1
ou no local multirregional US
.
Metadados do recurso
A Feature Store da Vertex AI é integrada ao Dataplex para fornecer recursos de governança de atributos, incluindo metadados. Instâncias de armazenamento on-line, visualizações de atributos e grupos de recursos são registrados automaticamente como recursos de dados no Data Catalog, um recurso do Dataplex que catálogo os metadados desses recursos. Use o recurso de pesquisa de metadados do Dataplex para procurar, visualizar e gerenciar os metadados desses recursos. Para mais informações sobre como pesquisar recursos do Vertex AI Feature Store no Dataplex, consulte Pesquisar metadados de recursos no Data Catalog.
Rótulos de atributos
É possível adicionar rótulos aos recursos durante ou após a criação deles. Para mais informações sobre como adicionar rótulos aos recursos atuais da Vertex AI Feature Store, consulte Atualizar rótulos.
Metadados da versão do recurso
O Feature Store da Vertex AI só oferece suporte à versão 0
dos recursos.
Gerenciamento de embedding e recuperação de vetores
A veiculação on-line otimizada no Vertex AI Feature Store tem suporte
gerenciamento de embeddings. É possível armazenar embeddings no BigQuery como matrizes double
normais. Usando os recursos de gerenciamento de incorporação da Feature Store da Vertex AI,
é possível realizar pesquisas de similaridade vetorial para recuperar entidades
vizinhas mais próximas de uma entidade ou valor de incorporação especificado.
Para usar o gerenciamento de incorporações no Feature Store da Vertex AI, faça o seguinte:
Configure a fonte de dados do BigQuery para oferecer suporte a embeddings, incluindo a coluna
embedding
. Opcionalmente, inclua filtros e agrupamento de colunas. Para mais informações, consulte Diretrizes de preparação de fontes de dados.Crie uma instância de loja on-line para veiculação on-line otimizada.
Especifique a coluna
embedding
ao criar a visualização do elemento. Para saber mais sobre como criar uma visualização de recursos compatível com embeddings, consulte Configurar recuperação de vetor para uma visualização de recurso.
Para informações sobre como executar uma pesquisa de similaridade vetorial no Feature Store da Vertex AI, consulte Executar uma pesquisa de vetor para entidades.
Retenção de dados
O Feature Store da Vertex AI mantém os valores de atributos mais recentes para um ID exclusivo, com base no carimbo de data/hora associado aos valores dos atributos na fonte de dados. Não há limite de retenção de dados na loja on-line.
Como o armazenamento off-line é provisionado pelo BigQuery, as cotas ou os limites de retenção de dados do BigQuery podem ser aplicados à fonte de dados de recursos, incluindo valores históricos de atributos. Saiba mais sobre cotas e limites no BigQuery.
Cotas e limites
O Feature Store da Vertex AI aplica cotas e limites para ajudar você a gerenciar recursos definindo seus próprios limites de uso e para proteger a comunidade de usuários do Google Cloud, evitando picos de uso inesperados. Para usar os recursos do Feature Store da Vertex AI com eficiência sem atingir essas restrições, consulte as cotas e limites da Feature Store da Vertex AI.
Preços
Para informações sobre os preços de uso de recursos do Feature Store da Vertex AI, consulte Preços do Feature Store da Vertex AI.
Tutoriais de notebook
Use os exemplos e tutoriais a seguir para saber mais sobre o Vertex AI Feature Store.
Disponibilização on-line de recursos e busca de dados do BigQuery com veiculação on-line do Bigtable da Vertex AI Feature Store
Neste tutorial, você vai aprender a usar a veiculação on-line do Bigtable na Vertex AI Feature Store para veicular e buscar valores de recursos on-line no BigQuery. Abrir no Colab | Abrir no Colab Enterprise | Ver no GitHub | Abrir nos notebooks gerenciados pelo usuário do Vertex AI Workbench |
Disponibilização on-line de recursos e busca de dados do BigQuery com a veiculação on-line otimizada da Vertex AI Feature Store
Neste notebook, você vai aprender a usar a veiculação on-line otimizada na Vertex AI Feature Store para veicular e buscar valores de recursos do BigQuery. Abrir no Colab | Abrir no Colab Enterprise | Ver no GitHub | Abrir nos notebooks gerenciados pelo usuário do Vertex AI Workbench |
Veiculação de atributos on-line e recuperação de vetores do BigQuery com o Vertex AI Feature Store
Neste tutorial, você vai aprender a usar a Vertex AI Feature Store para exibição on-line e recuperação vetorial de valores de atributos no BigQuery. Abrir no Colab | Abrir no Colab Enterprise | Ver no GitHub | Abrir nos notebooks gerenciados pelo usuário do Vertex AI Workbench |
Agentes de serviço da visualização de recursos da Vertex AI Feature Store
Neste tutorial, você aprende como ativar agentes de serviço de visualização de recurso e conceder a cada recurso acesso de visualização aos dados de origem específicos que são usados. Abrir no Colab | Abrir no Colab Enterprise | Ver no GitHub | Abrir nos notebooks gerenciados pelo usuário do Vertex AI Workbench |
Tutorial de LLM baseado na Vertex AI Feature Store
Neste tutorial, você vai aprender a agrupar dados fornecidos pelo usuário e, em seguida, gerar vetores de embedding para cada bloco usando um modelo de linguagem grande (LLM) com recursos de geração de embedding. O conjunto de dados de vetores incorporados resultante pode ser carregado na Vertex AI Feature Store, permitindo a recuperação rápida de recursos e a veiculação on-line eficiente. Abrir no Colab | Abrir no Colab Enterprise | Ver no GitHub | Abrir nos notebooks gerenciados pelo usuário do Vertex AI Workbench |
Criar um aplicativo de RAG de IA generativa com a Vertex AI Feature Store e o BigQuery
Neste tutorial, você vai aprender a criar um sistema de pesquisa vetorial de baixa latência para seu aplicativo de IA generativa usando a pesquisa de vetor do BigQuery e a Vertex AI Feature Store. Abrir no Colab | Abrir no Colab Enterprise | Ver no GitHub | Abrir nos notebooks gerenciados pelo usuário do Vertex AI Workbench |
Configurar política de IAM na Vertex AI Feature Store
Neste tutorial, você vai aprender a configurar uma política do IAM para controlar o acesso a recursos e dados armazenados na Vertex AI Feature Store. Abrir no Colab | Abrir no Colab Enterprise | Ver no GitHub | Abrir nos notebooks gerenciados pelo usuário do Vertex AI Workbench |
A seguir
Saiba como configurar seus dados no BigQuery.
Saiba como criar grupos de recursos e funcionalidades.
Saiba como criar uma instância de loja on-line.