Prepara l'origine dati

Prima di poter iniziare a gestire le caratteristiche online utilizzando Vertex AI Feature Store, devi configurare l'origine dati delle caratteristiche in BigQuery come segue:

  1. Crea una tabella o una visualizzazione BigQuery utilizzando i dati delle caratteristiche. Per caricare i dati delle caratteristiche in una tabella o vista BigQuery, puoi creare un set di dati BigQuery utilizzando i dati, creare una tabella BigQuery e quindi caricare i dati delle caratteristiche dal set di dati nella tabella.

  2. Dopo aver caricato i dati delle caratteristiche nella tabella o nella vista BigQuery, devi rendere questa origine dati disponibile in Vertex AI Feature Store per la pubblicazione online. Puoi connettere l'origine dati alle risorse di pubblicazione online in due modi, ad esempio negozi online e istanze di visualizzazione delle caratteristiche:

    • Registra l'origine dati creando gruppi di funzionalità e funzionalità: puoi associare gruppi di caratteristiche e funzionalità alle istanze di visualizzazione delle caratteristiche nel tuo archivio online. In questo scenario, puoi formattare i dati come serie temporale includendo la colonna feature_timestamp. Vertex AI Feature Store pubblica solo i valori non null più recenti per ogni ID entità univoco, in base al timestamp della caratteristica. Per informazioni su come creare gruppi di funzionalità, consulta Creare un gruppo di funzionalità. Per informazioni su come creare funzionalità all'interno di un gruppo di funzionalità, consulta Creare una funzionalità.

    • Pubblicare le caratteristiche direttamente dall'origine dati senza creare gruppi di caratteristiche e funzionalità: puoi specificare l'URI dell'origine dati nella visualizzazione delle caratteristiche. Tieni presente che in questo scenario non puoi formattare i dati come serie temporali o includere i dati storici nell'origine BigQuery. Ogni riga deve contenere i valori delle funzionalità più recenti corrispondenti a un ID univoco. Non sono supportate più occorrenze dello stesso ID entità in righe diverse.

Poiché Vertex AI Feature Store consente di gestire i dati delle caratteristiche in BigQuery e gestisce le caratteristiche dall'origine dati BigQuery, non è necessario importare o copiare le caratteristiche in un archivio offline.

Linee guida per la preparazione dell'origine dati

Segui queste linee guida per comprendere lo schema e i vincoli durante la preparazione dell'origine dati in BigQuery:

  1. L'origine dati deve contenere le seguenti colonne:

    • Una colonna ID entità con valori string. La dimensione di ogni valore in questa colonna deve essere inferiore a 4 kB.

      • Se registri l'origine dati creando gruppi di caratteristiche, il nome di questa colonna deve essere entity_id. Non è necessario specificare la colonna ID entità quando associ i gruppi di caratteristiche durante la creazione della visualizzazione delle caratteristiche.

      • Se specifichi l'URI dell'origine dati per creare la visualizzazione delle caratteristiche, devi specificare il nome di questa colonna durante la creazione della visualizzazione delle caratteristiche. In questo caso, non è obbligatorio assegnare a questa colonna il nome entity_id.

    • Se registri l'origine dati utilizzando gruppi di funzionalità e funzionalità, includi la colonna feature_timestamp e formatta i dati come serie temporale. La colonna feature_timestamp contiene valori di tipo timestamp. Durante la pubblicazione online, Vertex AI Feature Store pubblica i valori non null più recenti di una caratteristica in base a questo timestamp.

    Se associ direttamente un'origine dati BigQuery a una visualizzazione delle caratteristiche, la colonna feature_timestamp non è obbligatoria. In questo scenario, devi includere solo i valori delle funzionalità più recenti nell'origine dati e Vertex AI Feature Store non cerca il timestamp.

    • Se vuoi abilitare la gestione dell'incorporamento nel tuo negozio online, l'origine dati deve contenere le seguenti colonne:

    • Una colonna embedding contenente array di tipo float.

    • (Facoltativo) Una o più colonne di filtro di tipo array string o string.

    • (Facoltativo) Una colonna con crowding di tipo int.

  2. Ogni riga nell'origine dati è un record completo dei valori delle caratteristiche associati a un ID entità. Se un valore della caratteristica non è presente in una delle colonne, viene considerato un valore nullo. A seconda di come definisci la visualizzazione delle caratteristiche, esistono due modi in cui Vertex AI Feature Store seleziona i valori delle caratteristiche che gestisce:

    • Se la visualizzazione delle caratteristiche è definita in base a gruppi di caratteristiche e caratteristiche, Vertex AI Feature Store pubblica il valore delle caratteristiche con valore non null più recente utilizzando il timestamp delle caratteristiche. Ad esempio, se il valore di una particolare caratteristica corrispondente al timestamp più recente è null, Vertex AI Feature Store fornisce il valore non null più recente dai valori storici della caratteristica.

    • Se la visualizzazione delle caratteristiche viene definita specificando direttamente un'origine dati BigQuery, ogni riga deve contenere un ID entità univoco. In questo caso, Vertex AI Feature Store gestisce tutti i valori delle caratteristiche dall'origine dati associata.

  3. Ogni colonna della tabella o della vista BigQuery rappresenta una caratteristica. Fornisci i valori per ogni funzionalità in una colonna separata. Se associ l'origine dati a un gruppo di caratteristiche e a funzionalità, associa ogni colonna a una funzionalità separata.

  4. I tipi di dati supportati per i valori delle funzionalità includono bool, int, float, string, timestamp, array di questi tipi di dati e byte. Tieni presente che durante la sincronizzazione dei dati, i valori delle funzionalità di tipo timestamp vengono convertiti in int64.

  5. L'origine dati deve trovarsi nella stessa regione dell'istanza del negozio online o in una multiregione che include o si sovrappone alla regione per il negozio online. Ad esempio, se il negozio online si trova in us-central, l'origine BigQuery potrebbe trovarsi in us-central o US.

  6. Sincronizza i dati in una visualizzazione delle caratteristiche prima della pubblicazione online per assicurarti di pubblicare solo i valori delle funzionalità più recenti.

Passaggi successivi