Prepara l'origine dati

Prima di poter iniziare a gestire caratteristiche online utilizzando Vertex AI Feature Store, devi configurare l'origine dati delle caratteristiche in BigQuery nel seguente modo:

  1. Crea una tabella o una vista BigQuery utilizzando i dati delle caratteristiche. Per caricare delle caratteristiche in una tabella o vista BigQuery, puoi creare set di dati BigQuery che utilizza i dati, crea un e quindi caricare i dati delle caratteristiche dal set di dati nella tabella.

  2. Dopo aver caricato i dati delle caratteristiche nella tabella BigQuery o devi rendere l'origine dati disponibile Vertex AI Feature Store per la distribuzione online. Esistono due modi per collegare l'origine dati alle risorse di pubblicazione online, come i negozi online e le istanze di visualizzazione delle caratteristiche:

    • Registra l'origine dati creando gruppi di funzionalità e funzionalità: puoi associare gruppi di funzionalità e funzionalità a istanze di visualizzazione delle funzionalità nel tuo negozio online. In questo scenario, puoi formattare i dati come serie temporali includendo la colonna feature_timestamp. Vertex AI Feature Store pubblica solo i valori non null più recenti per ogni ID entità univoco, in base al timestamp della caratteristica. Per informazioni su come creare gruppi di funzionalità, consulta Creare un gruppo di funzionalità. Per informazioni su come creare elementi all'interno di un gruppo di elementi, consulta Creare un elemento.

    • Pubblica le caratteristiche direttamente dall'origine dati senza creare le caratteristiche Gruppi e funzionalità: puoi specificare l'URI dell'origine dati nella visualizzazione caratteristiche. Tieni presente che in questo scenario non puoi formattare i dati come serie temporali o includere dati storici nell'origine BigQuery. Ogni riga deve contenere gli ultimi valori delle caratteristiche corrispondenti a un ID univoco. Non sono supportate più occorrenze dello stesso ID entità in righe diverse.

Poiché Vertex AI Feature Store ti consente di gestire i dati delle funzionalità in BigQuery e di pubblicare funzionalità dall'origine data BigQuery, non è necessario importare o copiare le funzionalità in un magazzino offline.

Linee guida per la preparazione delle origini dati

Segui queste linee guida per comprendere lo schema e i vincoli durante la preparazione dell'origine dati in BigQuery:

  1. L'origine dati deve contenere le seguenti colonne:

    • Almeno una colonna di ID entità con valori string. La dimensione di ogni valore in questo deve essere inferiore a 4 kB.

    • Se registri l'origine dati utilizzando gruppi di funzionalità e funzionalità, includi la colonna feature_timestamp e formatta i dati come serie temporali. La colonna feature_timestamp contiene valori di tipo timestamp. Durante la distribuzione online, Vertex AI Feature Store gestisce la valori non null di una caratteristica in base a questo timestamp.

    Se associ direttamente un'origine dati BigQuery a una caratteristica vista, la colonna feature_timestamp non è obbligatoria. In questo scenario, devi includere solo i valori delle caratteristiche più recenti nell'origine dati e Vertex AI Feature Store non cerca il timestamp.

    • Se vuoi utilizzare la gestione dell'incorporamento in un negozio online creato Per la pubblicazione online ottimizzata, l'origine dati deve contenere le seguenti colonne:

      • Una colonna embedding contenente array di tipo float.

      • (Facoltativo) Una o più colonne di filtro di tipo string o array string.

      • (Facoltativo) Una colonna di affollamento di tipo int.

  2. Ogni riga dell'origine dati è un record completo dei valori delle funzionalità associati a un ID entità. Se un valore di caratteristica non è presente in una delle colonne, viene considerato un valore nullo. In base a come definisci la visualizzazione caratteristiche, ci sono due modi in cui Vertex AI Feature Store seleziona il i valori delle caratteristiche che pubblica:

    • Se la visualizzazione delle caratteristiche è definita in base a gruppi di caratteristiche e caratteristiche, Vertex AI Feature Store pubblica il valore della caratteristica non null più recente mediante il timestamp delle caratteristiche. Ad esempio, se il valore di una determinata caratteristica corrispondente all'ultimo timestamp è null, Vertex AI Feature Store pubblica il valore non null più recente tra i valori storici della caratteristica.

    • Se la visualizzazione delle funzionalità è definita specificando direttamente un'origine dati BigQuery, ogni riga deve contenere un valore univoco per una colonna ID entità. In questo caso, Vertex AI Feature Store pubblica tutti i valori delle caratteristiche dell'origine dati associata.

  3. Ogni colonna della tabella o della vista BigQuery rappresenta una caratteristica. Fornisci i valori per ogni caratteristica in una colonna separata. Se vuoi associare l'origine dati con un gruppo di caratteristiche e caratteristiche, associare ogni colonna a una caratteristica separata.

  4. I tipi di dati supportati per i valori delle funzionalità includono bool, int, float, string, timestamp, array di questi tipi di dati e byte. Tieni presente che durante la sincronizzazione dei dati, i valori delle funzionalità di tipo timestamp vengono convertiti in int64.

  5. L'origine dati deve trovarsi nella stessa regione dell'archivio online o in una multiregione che include o si sovrappone alla regione per negozio online. Ad esempio, se il negozio online si trova in us-central, l'origine BigQuery potrebbe trovarsi in us-central o US.

  6. Sincronizza i dati in una vista delle funzionalità prima della pubblicazione online per assicurarti di pubblicare solo i valori delle funzionalità più recenti.

Passaggi successivi