Prepara l'origine dati

Prima di poter iniziare a gestire le caratteristiche online utilizzando Vertex AI Feature Store, devi configurare l'origine dati delle caratteristiche in BigQuery nel modo seguente:

  1. Crea una tabella o una vista BigQuery utilizzando i dati delle caratteristiche. Per caricare i dati delle caratteristiche in una tabella o una vista BigQuery, puoi creare un set di dati BigQuery utilizzando i dati, creare una tabella BigQuery e quindi caricare i dati delle caratteristiche dal set di dati nella tabella.

  2. Dopo aver caricato i dati delle caratteristiche nella tabella o nella vista BigQuery, devi rendere disponibile l'origine dati in Vertex AI Feature Store per la pubblicazione online. Esistono due modi in cui è possibile connettere l'origine dati alle risorse di distribuzione online, ad esempio negozi online e istanze di visualizzazione caratteristiche:

    • Registra l'origine dati creando gruppi di caratteristiche e caratteristiche: Puoi associare gruppi di caratteristiche e caratteristiche a istanze di visualizzazione caratteristiche nel tuo archivio online. In questo scenario, puoi formattare i dati come serie temporali includendo la colonna feature_timestamp. Vertex AI Feature Store pubblica solo i valori non null più recenti per ogni ID entità univoco, in base al timestamp della caratteristica. Per informazioni su come creare gruppi di caratteristiche, consulta Creare un gruppo di caratteristiche. Per informazioni su come creare caratteristiche all'interno di un gruppo di caratteristiche, consulta Creare una caratteristica.

    • Pubblica le caratteristiche direttamente dall'origine dati senza creare gruppi di caratteristiche e caratteristiche: puoi specificare l'URI dell'origine dati nella visualizzazione delle caratteristiche. Tieni presente che in questo scenario non puoi formattare i dati come serie temporali o includere dati storici nell'origine BigQuery. Ogni riga deve contenere i valori delle caratteristiche più recenti corrispondenti a un ID univoco. Non sono supportate più occorrenze dello stesso ID entità in righe diverse.

Poiché Vertex AI Feature Store consente di gestire i dati delle caratteristiche in BigQuery e fornisce le caratteristiche dall'origine dati BigQuery, non è necessario importare o copiare le caratteristiche in un archivio offline.

Linee guida per la preparazione dell'origine dati

Segui queste linee guida per comprendere lo schema e i vincoli durante la preparazione dell'origine dati in BigQuery:

  1. L'origine dati deve contenere le seguenti colonne:

    • Almeno una colonna di ID entità con valori string. Le dimensioni di ogni valore in questa colonna devono essere inferiori a 4 kB.

    • Se registri l'origine dati utilizzando gruppi di funzionalità e caratteristiche, includi la colonna feature_timestamp e formatta i dati come serie temporali. La colonna feature_timestamp contiene valori di tipo timestamp. Durante la distribuzione online, Vertex AI Feature Store gestisce i valori non null più recenti di una caratteristica in base a questo timestamp.

    Se associ direttamente un'origine dati BigQuery a una visualizzazione delle caratteristiche, la colonna feature_timestamp non è obbligatoria. In questo scenario, devi includere solo i valori delle caratteristiche più recenti nell'origine dati e Vertex AI Feature Store non cerca il timestamp.

    • Se vuoi utilizzare la gestione dell'incorporamento in un negozio online creato per la pubblicazione online ottimizzata, l'origine dati deve contenere le seguenti colonne:

      • Una colonna embedding contenente array di tipo float.

      • (Facoltativo) Una o più colonne di filtro di tipo string o array string.

      • (Facoltativo) Una colonna di affollamento di tipo int.

  2. Ogni riga nell'origine dati è un record completo dei valori delle caratteristiche associati a un ID entità. Se un valore di caratteristica non è presente in una delle colonne, viene considerato un valore nullo. A seconda di come definisci la visualizzazione delle caratteristiche, ci sono due modi in cui Vertex AI Feature Store seleziona i valori delle caratteristiche che pubblica:

    • Se la visualizzazione delle caratteristiche viene definita in base a gruppi di caratteristiche e caratteristiche, Vertex AI Feature Store fornisce il valore più recente delle caratteristiche non nullo utilizzando il timestamp delle caratteristiche. Ad esempio, se il valore di una particolare caratteristica corrispondente all'ultimo timestamp è null, Vertex AI Feature Store fornisce il valore non null più recente dai valori storici della caratteristica.

    • Se la visualizzazione delle caratteristiche viene definita specificando direttamente un'origine dati BigQuery, ogni riga deve contenere un valore univoco per una colonna ID entità. In questo caso, Vertex AI Feature Store gestisce tutti i valori delle caratteristiche dell'origine dati associata.

  3. Ogni colonna della tabella o della vista BigQuery rappresenta una caratteristica. Fornisci i valori per ogni caratteristica in una colonna separata. Se associ l'origine dati a un gruppo di caratteristiche e a caratteristiche, associa ogni colonna a una caratteristica separata.

  4. I tipi di dati supportati per i valori delle caratteristiche includono bool, int, float, string, timestamp, array di questi tipi di dati e byte. Tieni presente che durante la sincronizzazione dei dati, i valori delle caratteristiche di tipo timestamp vengono convertiti in int64.

  5. L'origine dati deve trovarsi nella stessa regione dell'istanza del negozio online o in più regioni che include o si sovrappone alla regione del negozio online. Ad esempio, se il negozio online si trova in us-central, l'origine BigQuery potrebbe trovarsi in us-central o US.

  6. Sincronizza i dati in una visualizzazione delle caratteristiche prima della pubblicazione online per assicurarti di pubblicare solo i valori delle caratteristiche più recenti.

Passaggi successivi