Questa pagina è stata tradotta dall'API Cloud Translation.

Modello da Bigtable a Vertex AI Vector Search

Il modello per i file da Bigtable a Vertex AI Vector Search su Cloud Storage crea una pipeline batch che legge i dati da una tabella Bigtable e li scrive in un bucket Cloud Storage in formato JSON. Utilizza questo modello per gli incorporamenti vettoriali.

Requisiti della pipeline

La tabella Bigtable deve esistere.
Il bucket Cloud Storage di output deve esistere prima dell'esecuzione della pipeline.

Parametri del modello

Parametri obbligatori

bigtableProjectId: l'ID del progetto Google Cloud che contiene l'istanza Bigtable da cui vuoi leggere i dati.
bigtableInstanceId: l'ID dell'istanza Bigtable che contiene la tabella.
bigtableTableId: l'ID della tabella Bigtable da cui leggere.
outputDirectory: il percorso Cloud Storage in cui sono archiviati i file JSON di output. Ad esempio, gs://your-bucket/your-path/.
idColumn: il nome completo della colonna in cui è memorizzato l'ID. Nel formato cf:col o _key.
embeddingColumn: il nome completo della colonna in cui sono memorizzati gli incorporamenti. Nel formato cf:col o _key.

Parametri facoltativi

filenamePrefix: il prefisso del nome del file JSON. Ad esempio: table1-. Se non viene fornito alcun valore, il valore predefinito è part.
crowdingTagColumn: il nome completo della colonna in cui è memorizzato il tag di affollamento. Nel formato cf:col o _key.
embeddingByteSize: le dimensioni in byte di ogni voce dell'array di incorporamenti. Per float, utilizza il valore 4. Per double, utilizza il valore 8. Il valore predefinito è 4.
allowRestrictsMappings: i nomi di colonna completi separati da virgole per le colonne da utilizzare come limitazioni consentite, con i relativi alias. Nel formato cf:col->alias.
denyRestrictsMappings: i nomi di colonna completi separati da virgole per le colonne da utilizzare come restrizioni di negazione, con i relativi alias. Nel formato cf:col->alias.
intNumericRestrictsMappings: i nomi di colonna completi separati da virgole delle colonne da utilizzare come numeric_restricts interi, con i relativi alias. Nel formato cf:col->alias.
floatNumericRestrictsMappings: i nomi di colonna completi separati da virgole delle colonne da utilizzare come numeric_restricts float (4 byte), con i relativi alias. Nel formato cf:col->alias.
doubleNumericRestrictsMappings: i nomi di colonna completi separati da virgole delle colonne da utilizzare come numeric_restricts double (8 byte), con i relativi alias. Nel formato cf:col->alias.
bigtableAppProfileId: l'ID del profilo app Cloud Bigtable da utilizzare per l'esportazione. Il valore predefinito è: default.

Esegui il modello

Console

Vai alla pagina Crea job da modello di Dataflow.

Vai a Crea job da modello

Nel campo Nome job, inserisci un nome univoco per il job.
(Facoltativo) Per Endpoint a livello di regione, seleziona un valore dal menu a discesa. La regione predefinita è us-central1.
Per un elenco delle regioni in cui puoi eseguire un job Dataflow, consulta Località di Dataflow.
Dal menu a discesa Modello di dataflow, seleziona the Cloud Bigtable to Vector Embeddings template.
Nei campi dei parametri forniti, inserisci i valori dei parametri.
Fai clic su Esegui job.

Interfaccia a riga di comando gcloud

Nella shell o nel terminale, esegui il modello:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location=gs://dataflow-templates-REGION_NAME/VERSION/Cloud_Bigtable_to_Vector_Embeddings \
    --project=PROJECT_ID \
    --region=REGION_NAME \
    --parameters \
       bigtableProjectId=BIGTABLE_PROJECT_ID,\
       bigtableInstanceId=BIGTABLE_INSTANCE_ID,\
       bigtableTableId=BIGTABLE_TABLE_ID,\
       filenamePrefix=FILENAME_PREFIX,\
       idColumn=ID_COLUMN,\
       embeddingColumn=EMBEDDING_COLUMN,\

Sostituisci quanto segue:

JOB_NAME: un nome univoco del job a tua scelta
VERSION: la versione del modello che vuoi utilizzare
Puoi utilizzare i seguenti valori:
- latest per utilizzare l'ultima versione del modello, disponibile nella cartella principale senza data nel bucket: gs://dataflow-templates-REGION_NAME/latest/
- il nome della versione, ad esempio 2023-09-12-00_RC00, per utilizzare una versione specifica del modello, che si trova nidificata nella rispettiva cartella principale con data nel bucket: gs://dataflow-templates-REGION_NAME/
Attenzione:l'ultima versione dei modelli potrebbe essere aggiornata con modifiche che causano interruzioni. Gli ambienti di produzione devono utilizzare i modelli conservati nella cartella principale con data più recente per evitare che queste modifiche che causano interruzioni influiscano sui workflow di produzione.
REGION_NAME: la regione in cui vuoi eseguire il deployment del job Dataflow, ad esempio us-central1
BIGTABLE_PROJECT_ID: l'ID progetto
BIGTABLE_INSTANCE_ID: l'ID istanza
BIGTABLE_TABLE_ID: l'ID tabella
FILENAME_PREFIX: il prefisso del file JSON
ID_COLUMN: la colonna ID
EMBEDDING_COLUMN: la colonna degli incorporamenti

API

Per eseguire il modello utilizzando l'API REST, invia una richiesta POST HTTP. Per ulteriori informazioni sull'API e sui relativi ambiti di autorizzazione, consulta projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/Cloud_Bigtable_to_Vector_Embeddings
{
   "jobName": "JOB_NAME",
   "parameters": {
     "bigtableProjectId": "BIGTABLE_PROJECT_ID",
     "bigtableInstanceId": "BIGTABLE_INSTANCE_ID",
     "bigtableTableId": "BIGTABLE_TABLE_ID",
     "filenamePrefix": "FILENAME_PREFIX",
     "idColumn": "ID_COLUMN",
     "embeddingColumn": "EMBEDDING_COLUMN",
   },
   "environment": { "maxWorkers": "10" }
}