Preparar fonte de dados

Antes de começar a exibir atributos on-line usando o Vertex AI Feature Store, configure sua fonte de dados de atributos no BigQuery da seguinte maneira:

  1. Crie uma tabela ou visualização do BigQuery com seus dados de recursos. Para carregar dados de recursos em uma tabela ou visualização do BigQuery, crie um conjunto de dados do BigQuery usando essas informações, crie uma tabela do BigQuery e carregue os dados do recurso na tabela.

  2. Depois de carregar os dados de recursos na tabela ou visualização do BigQuery, é necessário disponibilizar essa fonte de dados para a Vertex AI Feature Store para exibição on-line. Há duas maneiras de conectar a fonte de dados a recursos de exibição on-line, como lojas on-line e instâncias de visualização de atributos:

    • Registre a fonte de dados criando grupos e recursos de atributos: é possível associar grupos e recursos a instâncias de visualização de atributos na sua loja on-line. Nesse cenário, é possível formatar os dados como uma série temporal incluindo a coluna feature_timestamp. o Vertex AI Feature Store exibe apenas os valores não nulos mais recentes para cada ID de entidade exclusivo, com base no carimbo de data/hora do recurso. Para mais informações sobre como criar grupos de recursos, consulte Criar um grupo de recursos. Para saber mais sobre como criar funcionalidades dentro de um grupo, consulte Criar um recurso.

    • Disponibilizar recursos diretamente da fonte de dados sem criar grupos e recursos:você pode especificar o URI da fonte de dados na visualização de recursos. Nesse cenário, não é possível formatar os dados como uma série temporal ou incluir dados históricos na origem do BigQuery. Cada linha precisa conter os valores mais recentes do recurso correspondentes a um ID exclusivo. Não há suporte para várias ocorrências do mesmo ID de entidade em linhas diferentes.

Como o Vertex AI Feature Store permite manter dados de recursos no BigQuery e exibir recursos da fonte de dados do BigQuery, não é necessário importar ou copiar os recursos para um armazenamento off-line.

Diretrizes de preparação de fontes de dados

Siga estas diretrizes para entender o esquema e as restrições ao preparar a fonte de dados no BigQuery:

  1. A fonte de dados precisa ter as seguintes colunas:

    • Uma coluna de ID da entidade com valores string. O tamanho de cada valor nesta coluna precisa ser menor que 4 KB.

      • Se você estiver registrando a fonte de dados criando grupos de recursos, o nome dessa coluna precisará ser entity_id. Não é preciso especificar a coluna de ID da entidade ao associar grupos de recursos durante a criação da visualização de recursos.

      • Se você especificar o URI da fonte de dados para criar a visualização de recursos, será necessário especificar o nome dessa coluna durante a criação da visualização de elementos. Nesse caso, não é obrigatório nomear a coluna como entity_id.

    • Se você registrar a fonte de dados usando recursos e grupos de recursos, inclua a coluna feature_timestamp e formate os dados como uma série temporal. A coluna feature_timestamp contém valores do tipo timestamp. Durante a exibição on-line, o Vertex AI Feature Store exibe os valores não nulos mais recentes de um atributo com base nesse carimbo de data/hora.

    Se você associar diretamente uma fonte de dados do BigQuery a uma visualização de recurso, a coluna feature_timestamp não será necessária. Nesse cenário, você precisa incluir apenas os valores de recursos mais recentes na fonte de dados, e o Vertex AI Feature Store não procura o carimbo de data/hora.

    • Se você quiser ativar o gerenciamento de incorporação no seu armazenamento on-line, a fonte de dados precisará conter as seguintes colunas:

    • Uma coluna embedding contendo matrizes do tipo float.

    • Opcional: uma ou mais colunas de filtragem do tipo string ou matriz string.

    • Opcional: uma coluna de agrupamento do tipo int.

  2. Cada linha na fonte de dados é um registro completo de valores de recursos associados a um ID de entidade. Se um valor de recurso estiver ausente em uma das colunas, ele será considerado nulo. Dependendo de como você define a visualização de atributos, há duas maneiras de selecionar a Vertex AI Feature Store de duas maneiras:

    • Se a visualização do recurso for definida com base em grupos e atributos, o Vertex AI Feature Store vai mostrar o valor não nulo mais recente do recurso usando o carimbo de data/hora do recurso. Por exemplo, se o valor de um atributo específico correspondente ao carimbo de data/hora mais recente for nulo, o Vertex AI Feature Store exibirá o valor não nulo mais recente dos valores históricos do recurso.

    • Se a visualização de recursos for definida especificando diretamente uma fonte de dados do BigQuery, todas as linhas precisarão conter um ID de entidade exclusivo. Nesse caso, o Vertex AI Feature Store exibe todos os valores de atributos da fonte de dados associada.

  3. Cada coluna da tabela ou visualização do BigQuery representa um recurso. Forneça os valores de cada recurso em uma coluna separada. Caso você esteja associando a fonte de dados a um grupo de recursos e recursos, associe cada coluna a um recurso separado.

  4. Os tipos de dados compatíveis com valores de recursos incluem bool, int, float, string, timestamp, matrizes desses tipos de dados e bytes. Durante a sincronização de dados, os valores de recursos do tipo timestamp são convertidos em int64.

  5. A fonte de dados precisa estar localizada na mesma região da instância de loja on-line ou em uma multirregião que inclua ou se sobreponha à região do armazenamento on-line. Por exemplo, se a loja on-line estiver em us-central, a fonte do BigQuery poderá estar localizada em us-central ou US.

  6. Sincronize os dados em uma visualização de recursos antes da exibição on-line para garantir que você exiba apenas os valores de atributos mais recentes.

A seguir