Antes de poder começar a publicar funcionalidades online através do Vertex AI Feature Store, tem de configurar a origem de dados de funcionalidades no BigQuery, da seguinte forma:
Crie uma tabela ou uma vista do BigQuery com os dados das funcionalidades. Para carregar dados de atributos numa tabela ou vista do BigQuery, pode criar um conjunto de dados do BigQuery com os dados, criar uma tabela do BigQuery e, em seguida, carregar os dados de atributos do conjunto de dados para a tabela.
Depois de carregar os dados das funcionalidades para a tabela ou a vista do BigQuery, tem de disponibilizar esta origem de dados ao Vertex AI Feature Store para publicação online. Existem duas formas de associar a origem de dados a recursos de publicação online, como lojas online e instâncias de visualização de funcionalidades:
Registe a origem de dados criando grupos de funcionalidades e funcionalidades: pode associar grupos de funcionalidades e funcionalidades a instâncias de visualização de funcionalidades na sua loja online. Pode formatar os dados de uma das seguintes formas:
Formate os seus dados como um intervalo temporal incluindo uma coluna de data/hora da funcionalidade. O Vertex AI Feature Store publica apenas os valores das funcionalidades mais recentes para cada ID de entidade exclusivo, com base na data/hora das funcionalidades nesta coluna.
Formate os dados sem incluir colunas de indicação de tempo de funcionalidades. O Vertex AI Feature Store gere as datas/horas e fornece apenas os valores das funcionalidades mais recentes para cada ID de entidade exclusivo.
Para obter informações sobre como criar grupos de funcionalidades, consulte o artigo Crie um grupo de funcionalidades. Para obter informações sobre como criar funcionalidades num grupo de funcionalidades, consulte o artigo crie uma funcionalidade.
Apresentar diretamente funcionalidades a partir da origem de dados sem criar grupos de funcionalidades nem funcionalidades: pode especificar o URI da origem de dados na vista de funcionalidades. Tenha em atenção que, neste cenário, não pode formatar os seus dados como uma série cronológica nem incluir dados do histórico na origem do BigQuery. Cada linha tem de conter os valores das funcionalidades mais recentes correspondentes a um ID único. Não são suportadas várias ocorrências do mesmo ID de entidade em linhas diferentes.
Uma vez que o Vertex AI Feature Store lhe permite manter os dados das caraterísticas no BigQuery e disponibiliza caraterísticas a partir da origem de dados do BigQuery, não é necessário importar nem copiar as caraterísticas para um arquivo offline.
Diretrizes de preparação da origem de dados
Siga estas diretrizes para compreender o esquema e as restrições enquanto prepara a origem de dados no BigQuery:
Inclua as seguintes colunas na origem de dados:
Colunas de ID de entidade: a origem de dados tem de ter, pelo menos, uma coluna de ID de entidade com valores
string
ouint
. O nome predefinido desta coluna éentity_id
. Opcionalmente, pode usar um nome diferente para esta coluna. O tamanho de cada valor nesta coluna tem de ser inferior a 4 KB.Tenha em atenção que também pode designar um registo de caraterísticas construindo o ID da entidade com caraterísticas de várias colunas. Neste cenário, pode incluir várias colunas de ID de entidades na origem de dados. O nome de cada coluna de ID da entidade tem de ser exclusivo. Se registar a origem de dados criando grupos de funcionalidades, defina as colunas de ID da entidade para cada grupo de funcionalidades. Caso contrário, se associar diretamente a origem de dados a uma visualização de funcionalidades, configure as visualizações de funcionalidades para especificar as colunas de ID da entidade.
Tenha em atenção que pode incluir várias colunas de ID numa origem de dados. Neste cenário, o nome de cada coluna de ID da entidade tem de ser exclusivo. Pode configurar os seus grupos de funcionalidades ou vistas de funcionalidades para construir o ID da entidade usando os valores de cada coluna para um registo de funcionalidades.
Coluna de indicação de tempo da funcionalidade: opcional. Se registar a origem de dados com grupos de elementos e elementos, e precisar de formatar os dados como uma série temporal, inclua uma coluna de data/hora do elemento. A coluna de data/hora contém valores do tipo
timestamp
. O nome predefinido da coluna de data/hora éfeature_timestamp
. Se quiser usar um nome de coluna diferente, use o parâmetrotime_series
para definir a coluna de data/hora do grupo de elementos.Se não especificar uma coluna de data/hora para formatar os dados como uma série cronológica, o Vertex AI Feature Store gere as datas/horas das funcionalidades e disponibiliza os valores das funcionalidades mais recentes.
Se associar diretamente uma origem de dados do BigQuery a uma visualização de propriedade, a coluna
feature_timestamp
não é necessária. Neste cenário, tem de incluir apenas os valores das funcionalidades mais recentes na origem de dados, e o Vertex AI Feature Store não procura a data/hora.Incorporar e filtrar colunas: opcional. Se quiser usar a gestão de incorporações numa loja online criada para o serviço online otimizado, a origem de dados tem de conter as seguintes colunas:
Uma coluna
embedding
que contém matrizes do tipofloat
.Opcional: uma ou mais colunas de filtragem do tipo
string
ou matrizstring
.Opcional: uma coluna de crowdourcing do tipo
int
.
Cada linha na origem de dados é um registo completo de valores de atributos associados a um ID de entidade. Se um valor de funcionalidade estiver em falta numa das colunas, é considerado um valor nulo.
Cada coluna da tabela ou vista do BigQuery representa uma funcionalidade. Forneça os valores de cada atributo numa coluna separada. Se estiver a associar a origem de dados a um grupo de funcionalidades e a funcionalidades, associe cada coluna a uma funcionalidade separada.
Os tipos de dados suportados para valores de caraterísticas incluem
bool
,int
,float
,string
,timestamp
, matrizes destes tipos de dados e bytes. Tenha em atenção que, durante a sincronização de dados, os valores das funcionalidades do tipotimestamp
são convertidos emint64
.A origem de dados tem de estar localizada na mesma região que a instância da loja online ou numa região múltipla que inclua ou se sobreponha à região da loja online. Por exemplo, se a loja online estiver em
us-central
, a origem do BigQuery pode estar localizada emus-central
ouUS
.Sincronize os dados numa vista de funcionalidades antes da publicação online para garantir que publica apenas os valores de funcionalidades mais recentes. Se estiver a usar a sincronização de dados agendada, pode ter de sincronizar manualmente os dados na vista de funcionalidades. No entanto, se estiver a usar a sincronização de dados contínua com a publicação online otimizada, não precisa de sincronizar os dados manualmente.
O que se segue?
Saiba como criar grupos de caraterísticas e caraterísticas.
Saiba como criar uma vista de funcionalidades.
Tipos de publicação online no Vertex AI Feature Store.