Questa pagina è stata tradotta dall'API Cloud Translation.

Modello Bigtable to JSON

Il modello Bigtable to JSON è una pipeline che legge i dati da una tabella Bigtable e li scrive in un bucket Cloud Storage in formato JSON.

Requisiti della pipeline

La tabella Bigtable deve esistere.
Il bucket Cloud Storage di output deve esistere prima dell'esecuzione della pipeline.

Parametri del modello

Parametri obbligatori

bigtableProjectId: l'ID del progetto Google Cloud che contiene l'istanza Bigtable da cui vuoi leggere i dati.
bigtableInstanceId: l'ID dell'istanza Bigtable che contiene la tabella.
bigtableTableId: l'ID della tabella Bigtable da cui leggere.
outputDirectory: il percorso Cloud Storage in cui sono archiviati i file JSON di output. Ad esempio, gs://your-bucket/your-path/.

Parametri facoltativi

filenamePrefix: il prefisso del nome del file JSON. Ad esempio, table1-. Se non viene fornito alcun valore, il valore predefinito è part.
userOption: i valori possibili sono FLATTEN o NONE. FLATTEN appiattisce la riga a un unico livello. NONE memorizza l'intera riga come stringa JSON. Il valore predefinito è NONE.
columnsAliases: un elenco separato da virgole di colonne necessarie per l'indice Vertex AI Vector Search. Le colonne id e embedding sono obbligatorie per Vertex AI Vector Search. Puoi utilizzare la notazione fromfamily:fromcolumn;to. Ad esempio, se le colonne sono rowkey e cf:my_embedding, dove rowkey ha un nome diverso dalla colonna di incorporamento, specifica cf:my_embedding;embedding e rowkey;id. Utilizza questa opzione solo quando il valore di userOption è FLATTEN.
bigtableAppProfileId: l'ID del profilo dell'applicazione Bigtable da utilizzare per l'esportazione. Se non specifichi un profilo app, Bigtable utilizza il profilo app predefinito dell'istanza: https://cloud.google.com/bigtable/docs/app-profiles#default-app-profile.

Esegui il modello

Console

Vai alla pagina Crea job da modello di Dataflow.

Vai a Crea job da modello

Nel campo Nome job, inserisci un nome univoco per il job.
(Facoltativo) Per Endpoint a livello di regione, seleziona un valore dal menu a discesa. La regione predefinita è us-central1.
Per un elenco delle regioni in cui puoi eseguire un job Dataflow, consulta Località di Dataflow.
Dal menu a discesa Modello di dataflow, seleziona the Bigtable to JSON template.
Nei campi dei parametri forniti, inserisci i valori dei parametri.
Fai clic su Esegui job.

Interfaccia a riga di comando gcloud

Nella shell o nel terminale, esegui il modello:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location=gs://dataflow-templates-REGION_NAME/VERSION/Cloud_Bigtable_to_GCS_Json \
    --project=PROJECT_ID \
    --region=REGION_NAME \
    --parameters \
       bigtableProjectId=BIGTABLE_PROJECT_ID,\
       bigtableInstanceId=BIGTABLE_INSTANCE_ID,\
       bigtableTableId=BIGTABLE_TABLE_ID,\
       filenamePrefix=FILENAME_PREFIX,\

Sostituisci quanto segue:

JOB_NAME: un nome univoco del job a tua scelta
VERSION: la versione del modello che vuoi utilizzare
Puoi utilizzare i seguenti valori:
- latest per utilizzare l'ultima versione del modello, disponibile nella cartella principale senza data nel bucket: gs://dataflow-templates-REGION_NAME/latest/
- il nome della versione, ad esempio 2023-09-12-00_RC00, per utilizzare una versione specifica del modello, che si trova nidificata nella rispettiva cartella principale con data nel bucket: gs://dataflow-templates-REGION_NAME/
Attenzione:l'ultima versione dei modelli potrebbe essere aggiornata con modifiche che causano interruzioni. Gli ambienti di produzione devono utilizzare i modelli conservati nella cartella principale con data più recente per evitare che queste modifiche che causano interruzioni influiscano sui workflow di produzione.
REGION_NAME: la regione in cui vuoi eseguire il deployment del job Dataflow, ad esempio us-central1
BIGTABLE_PROJECT_ID: l'ID progetto
BIGTABLE_INSTANCE_ID: l'ID istanza
BIGTABLE_TABLE_ID: l'ID tabella
FILENAME_PREFIX: il prefisso del file JSON

API

Per eseguire il modello utilizzando l'API REST, invia una richiesta POST HTTP. Per ulteriori informazioni sull'API e sui relativi ambiti di autorizzazione, consulta projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/Cloud_Bigtable_to_GCS_Json
{
   "jobName": "JOB_NAME",
   "parameters": {
     "bigtableProjectId": "BIGTABLE_PROJECT_ID",
     "bigtableInstanceId": "BIGTABLE_INSTANCE_ID",
     "bigtableTableId": "BIGTABLE_TABLE_ID",
     "filenamePrefix": "FILENAME_PREFIX",
   },
   "environment": { "maxWorkers": "10" }
}