Preparar fonte de dados

Antes de começar a exibir atributos on-line usando o Vertex AI Feature Store, configure sua fonte de dados de atributos no BigQuery da seguinte maneira:

  1. Crie uma tabela ou visualização do BigQuery com seus dados de recursos. Para carregar dados de recursos em uma tabela ou visualização do BigQuery, crie um conjunto de dados do BigQuery usando essas informações, crie uma tabela do BigQuery e carregue os dados do recurso na tabela.

  2. Depois de carregar os dados de recursos na tabela ou visualização do BigQuery, é necessário disponibilizar essa fonte de dados para a Vertex AI Feature Store para exibição on-line. Há duas maneiras de conectar a fonte de dados a recursos de exibição on-line, como lojas on-line e instâncias de visualização de atributos:

    • Registre a fonte de dados criando grupos e recursos de atributos: é possível associar grupos e recursos a instâncias de visualização de atributos na sua loja on-line. É possível formatar os dados de duas maneiras:

      • Inclua uma coluna de carimbo de data/hora de recurso para formatar seus dados como uma série temporal. O Vertex AI Feature Store exibe apenas os valores de atributos mais recentes para cada ID de entidade exclusivo, com base no carimbo de data/hora do atributo nessa coluna.

      • Formate os dados sem incluir colunas de carimbo de data/hora do recurso. A Feature Store da Vertex AI gerencia os carimbos de data/hora e exibe apenas os valores de recursos mais recentes para cada ID de entidade exclusivo.

      Para mais informações sobre como criar grupos de recursos, consulte Criar um grupo de recursos. Para saber mais sobre como criar recursos em um grupo, consulte Criar um recurso.

    • Disponibilizar recursos diretamente da fonte de dados sem criar grupos e recursos:é possível especificar o URI da fonte de dados na visualização de recursos. Nesse cenário, não é possível formatar os dados como uma série temporal ou incluir dados históricos na origem do BigQuery. Cada linha precisa conter os valores mais recentes do recurso correspondentes a um ID exclusivo. Não há suporte para várias ocorrências do mesmo ID de entidade em linhas diferentes.

Como o Vertex AI Feature Store permite manter dados de recursos no BigQuery e exibir recursos da fonte de dados do BigQuery, não é necessário importar ou copiar os recursos para um armazenamento off-line.

Diretrizes de preparação de fontes de dados

Siga estas diretrizes para entender o esquema e as restrições ao preparar a fonte de dados no BigQuery:

  1. Inclua as seguintes colunas na fonte de dados:

    • Colunas de ID da entidade: a fonte de dados precisa ter pelo menos uma coluna de ID da entidade com valores string ou int. O nome padrão dessa coluna é entity_id. Você pode usar um nome diferente para essa coluna. O tamanho de cada valor nesta coluna precisa ser menor que 4 KB.

      Também é possível designar um registro de elemento construindo o ID da entidade usando elementos de várias colunas. Nesse cenário, é possível incluir várias colunas de ID de entidade na fonte de dados. O nome de cada coluna de ID de entidade precisa ser exclusivo. Se você registrar a fonte de dados criando grupos de recursos, defina as colunas de ID da entidade para cada grupo. Caso contrário, se você associar diretamente a fonte de dados a uma visualização de recursos, configure as visualizações de recursos para especificar as colunas de ID de entidade.

      É possível incluir várias colunas de ID em uma fonte de dados. Nesse cenário, o nome de cada coluna de ID de entidade precisa ser exclusivo. É possível configurar grupos ou visualizações de recursos para construir o ID da entidade usando os valores de cada coluna para um registro de recurso.

    • Coluna de carimbo de data/hora do recurso: opcional. Se você registrar a fonte de dados usando recursos e grupos de recursos e precisar formatar os dados como uma série temporal, inclua uma coluna de carimbo de data/hora do atributo. A coluna de carimbo de data/hora contém valores do tipo timestamp. O nome padrão da coluna de marcação de tempo é feature_timestamp. Se você quiser usar um nome de coluna diferente, use o parâmetro time_series para definir a coluna de carimbo de data/hora do grupo de atributos.

      Se você não especificar uma coluna de carimbo de data/hora para formatar seus dados como uma série temporal, o Vertex AI Feature Store vai gerenciar os carimbos de data/hora dos recursos e exibir os valores mais recentes.

      Se você associar diretamente uma fonte de dados do BigQuery a uma visualização de recurso, a coluna feature_timestamp não será necessária. Nesse cenário, você precisa incluir apenas os valores de recursos mais recentes na fonte de dados, e o Vertex AI Feature Store não procura o carimbo de data/hora.

    • Inserir e filtrar colunas: opcional. Se você quiser usar o gerenciamento de incorporação em um armazenamento on-line criado para a veiculação on-line otimizada, a fonte de dados precisa conter as seguintes colunas:

      • Uma coluna embedding contendo matrizes do tipo float.

      • Opcional: uma ou mais colunas de filtragem do tipo string ou matriz string.

      • Opcional: uma coluna de agrupamento do tipo int.

  2. Cada linha na fonte de dados é um registro completo de valores de recursos associados a um ID de entidade. Se um valor de recurso estiver ausente em uma das colunas, ele será considerado nulo.

  3. Cada coluna da tabela ou visualização do BigQuery representa um recurso. Forneça os valores de cada recurso em uma coluna separada. Caso você esteja associando a fonte de dados a um grupo de recursos e recursos, associe cada coluna a um recurso separado.

  4. Os tipos de dados compatíveis com valores de recursos incluem bool, int, float, string, timestamp, matrizes desses tipos de dados e bytes. Durante a sincronização de dados, os valores de recursos do tipo timestamp são convertidos em int64.

  5. A fonte de dados precisa estar localizada na mesma região da instância de loja on-line ou em uma multirregião que inclua ou se sobreponha à região do armazenamento on-line. Por exemplo, se a loja on-line estiver em us-central, a fonte do BigQuery poderá estar localizada em us-central ou US.

  6. Sincronize os dados em uma visualização de recursos antes da veiculação on-line para garantir que você exiba apenas os valores de atributos mais recentes. Se você estiver usando a sincronização de dados programada, talvez seja necessário sincronizar manualmente os dados na visualização de recursos. No entanto, se você estiver usando a sincronização contínua de dados com a veiculação on-line otimizada, não será necessário sincronizar os dados manualmente.

A seguir