Requisitos de dados de origem

Para importação em lote, o Vertex AI Feature Store (legado) pode importar dados de tabelas no BigQuery ou arquivos no Cloud Storage.

  • Use a tabela do BigQuery se precisar importar todo o conjunto de dados e não precisar de filtros de partição.

  • Use a visualização do BigQuery se precisar importar um subconjunto específico do conjunto de dados. Essa opção é mais eficiente e permite importar seleções específicas de todo o conjunto de dados, incluindo várias tabelas geradas a partir dos dados.

  • Os dados contidos nos arquivos ingeridos do Cloud Storage precisam estar no formato AVRO ou CSV.

Para a importação por streaming, forneça os valores de atributos a serem importados na solicitação de API. Esses requisitos de dados de origem não se aplicam. Para mais informações, consulte a referência da API writeFeatureValues.

Cada item (ou linha) precisa atender aos seguintes requisitos:

  • É necessário ter uma coluna para IDs de entidade, e os valores precisam ser do tipo STRING. Esta coluna contém os IDs de entidade para os quais os valores de recurso são destinados.

  • Seus tipos de valor de dados de origem devem corresponder aos tipos de valor do recurso de destino na featurestore. Por exemplo, os valores booleanos precisam ser importados em um atributo do tipo BOOL.

  • Todas as colunas precisam ter um cabeçalho do tipo STRING. Não há restrições no nome dos cabeçalhos.

    • Para tabelas e visualizações do BigQuery, o cabeçalho da coluna é o nome dela.
    • Para o Avro, o cabeçalho da coluna é definido pelo esquema do Avro associado aos dados binários.
    • Para arquivos CSV, o cabeçalho da coluna é a primeira linha.
  • Se você fornecer uma coluna para carimbos de data/hora de geração de atributos, use um dos formatos de carimbo de data/hora a seguir:

    • Para tabelas e visualizações do BigQuery, os carimbos de data/hora precisam estar na coluna TIMESTAMP.
    • Para Avro, carimbos de data/hora precisam ser do tipo long e lógico do tipo timestamp-micros.
    • Para arquivos CSV, os carimbos de data/hora precisam estar no formato RFC 3339.
  • Os arquivos CSV não podem incluir tipos de dados de matriz. Use Avro ou BigQuery.

  • Para tipos de matriz, não é possível incluir um valor nulo na matriz. No entanto, é possível incluir uma matriz vazia.

Carimbos de data/hora do valor do atributo

Para importação em lote, o Vertex AI Feature Store (legado) exige carimbos de data/hora fornecidos pelo usuário para os valores de atributos importados. É possível especificar um carimbo de data/hora específico para cada valor ou especificar o mesmo carimbo de data/hora para todos os valores:

  • Se os carimbos de data/hora dos valores de recursos forem diferentes, especifique os carimbos de data/hora em uma coluna nos dados de origem. Cada linha precisa ter o próprio carimbo de data/hora indicando quando o valor do recurso foi gerado. Na solicitação de importação, especifique o nome da coluna para identificar a coluna de carimbo de data/hora.
  • Se o carimbo de data/hora de todos os valores de recursos for o mesmo, será possível especificá-lo como um parâmetro em sua solicitação de importação. Também é possível especificar o carimbo de data/hora em uma coluna nos dados de origem, em que cada linha tem o mesmo carimbo de data/hora.

Região da fonte de dados

Se os dados de origem estiverem no BigQuery ou no Cloud Storage, o conjunto de dados ou o bucket de origem precisará estar na mesma região ou no mesmo local multirregional que seu featurestore. Por exemplo, um featurestore em us-central1 pode importar dados apenas de buckets do Cloud Storage ou conjuntos de dados do BigQuery que estão em us-central1 ou no local multirregional dos EUA. Não é possível importar dados de, por exemplo, us-east1. Além disso, os dados de origem de buckets birregionais não são compatíveis.

A seguir