Questa pagina è stata tradotta dall'API Cloud Translation.

Caricare i dati da Cloud Storage in BigQuery utilizzando Workflows

Last reviewed 2021-05-12 UTC

Questo tutorial mostra come eseguire in modo affidabile flussi di lavoro serverless utilizzando Workflows, funzioni Cloud Run, e Firestore per caricare dati non elaborati, come i log eventi, da Cloud Storage a BigQuery. Le piattaforme di analisi in genere dispongono di uno strumento di orchestrazione per caricare periodicamente i dati in BigQuery utilizzando job BigQuery, quindi trasformare i dati per fornire metriche aziendali utilizzando istruzioni SQL, incluse le istruzioni del linguaggio procedurale BigQuery. Questo tutorial è rivolto a sviluppatori e architetti che vogliono creare pipeline di elaborazione dei dati serverless basate sugli eventi. Il tutorial presuppone che tu abbia familiarità con YAML, SQL e Python.

Architettura

Il seguente diagramma mostra l'architettura di alto livello di una pipeline di estrazione, caricamento e trasformazione (ELT) serverless che utilizza Workflows.

Nel diagramma precedente, considera una piattaforma di vendita al dettaglio che raccoglie periodicamente eventi di vendita come file da vari negozi e poi scrive i file in un bucket Cloud Storage. Gli eventi vengono utilizzati per fornire metriche aziendali mediante l'importazione e l'elaborazione in BigQuery. Questa architettura fornisce un sistema di orchestrazione serverless e affidabile per importare i file in BigQuery ed è suddivisa nei due moduli seguenti:

Elenco file: gestisce l'elenco dei file non elaborati aggiunti a un bucket Cloud Storage in una raccolta Firestore. Questo modulo funziona tramite una funzione Cloud Run attivata da un evento di archiviazione Object Finalize, che viene generato quando un nuovo file viene aggiunto al bucket Cloud Storage. Il nome file viene aggiunto all'array files della raccolta denominata new in Firestore.
Workflow: esegue i workflow pianificati. Cloud Scheduler attiva un flusso di lavoro che esegue una serie di passaggi in base a una sintassi basata su YAML per orchestrare il caricamento e poi trasformare i dati in BigQuery chiamando funzioni Cloud Run. I passaggi del flusso di lavoro chiamano Cloud Run Functions per eseguire le seguenti attività:
- Crea e avvia un job di caricamento BigQuery.
- Estrai lo stato del job di caricamento.
- Crea e avvia il job della query di trasformazione.
- Estrai lo stato del job di trasformazione.

L'utilizzo delle transazioni per gestire l'elenco dei nuovi file in Firestore contribuisce a garantire che nessun file venga perso quando un flusso di lavoro li importa in BigQuery. Le esecuzioni separate del flusso di lavoro sono rese idempotenti memorizzando i metadati e lo stato del job in Firestore.

Obiettivi

Crea un database Firestore.
Configura un trigger della funzione Cloud Run per monitorare i file aggiunti al bucket Cloud Storage in Firestore.
Esegui il deployment di Cloud Run Functions per eseguire e monitorare i job BigQuery.
Esegui il deployment e l'esecuzione di un workflow per automatizzare il processo.

Costi

In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il calcolatore prezzi.

I nuovi utenti di Google Cloud potrebbero avere diritto a una prova senza costi.

Al termine delle attività descritte in questo documento, puoi evitare l'addebito di ulteriori costi eliminando le risorse che hai creato. Per ulteriori informazioni, vedi Pulizia.

Prima di iniziare

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the Cloud Build, Cloud Run functions, Identity and Access Management, Resource Manager, and Workflows APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs
Vai alla pagina Benvenuto e prendi nota dell'ID progetto da utilizzare in un passaggio successivo.

Vai alla pagina di benvenuto
In the Google Cloud console, activate Cloud Shell.

Activate Cloud Shell
prepara l'ambiente

Per preparare l'ambiente, crea un database Firestore, clona gli esempi di codice dal repository GitHub, crea risorse utilizzando Terraform, modifica il file YAML di Workflows e installa i requisiti per il generatore di file.
1. Per creare un database Firestore:
  1. Nella console Google Cloud , vai alla pagina Firestore.
    
    Vai a Firestore
  2. Fai clic su Seleziona modalità Native.
  3. Nel menu Seleziona una località, seleziona la regione in cui vuoi ospitare il database Firestore. Ti consigliamo di scegliere una regione vicina alla tua posizione fisica.
  4. Fai clic su Crea database.
2. In Cloud Shell, clona il repository di origine:
  cd $HOME && git clone https://github.com/GoogleCloudPlatform/workflows-demos cd workflows-demos/workflows-bigquery-load
3. In Cloud Shell, crea le seguenti risorse utilizzando Terraform:
  terraform init terraform apply \ -var project_id=PROJECT_ID \ -var region=REGION \ -var zone=ZONE \ --auto-approve
  Sostituisci quanto segue:
  - PROJECT_ID: il tuo ID progetto Google Cloud
  - REGION: una località geografica specifica Google Cloud in cui ospitare le tue risorse, ad esempio us-central1
  - ZONE: una località all'interno di una regione in cui ospitare le tue risorse, ad esempio us-central1-b
  Dovresti visualizzare un messaggio simile al seguente: Apply complete! Resources: 7 added, 0 changed, 1 destroyed.
  
  Terraform può aiutarti a creare, modificare e aggiornare l'infrastruttura su larga scala in modo sicuro e prevedibile. Nel tuo progetto vengono create le seguenti risorse:
  - Service account con i privilegi necessari per garantire l'accesso sicuro alle tue risorse.
  - Un set di dati BigQuery denominato serverless_elt_dataset e una tabella denominata word_count per caricare i file in arrivo.
  - Un bucket Cloud Storage denominato ${project_id}-ordersbucket per la gestione temporanea dei file di input.
  - Le seguenti cinque funzioni Cloud Run:
    
    file_add_handler aggiunge il nome dei file aggiunti al bucket Cloud Storage alla raccolta Firestore.
    
    create_job crea un nuovo job di caricamento BigQuery e associa i file nella raccolta Firebase al job.
    
    create_query crea un nuovo job di query BigQuery.
    
    poll_bigquery_job recupera lo stato di un job BigQuery.
    
    run_bigquery_job avvia un job BigQuery.
4. Recupera gli URL delle funzioni Cloud Run create_job, create_query, poll_job e run_bigquery_job di cui hai eseguito il deployment nel passaggio precedente.
  gcloud functions describe create_job | grep url gcloud functions describe poll_bigquery_job | grep url gcloud functions describe run_bigquery_job | grep url gcloud functions describe create_query | grep url
  L'output è simile al seguente:
  url: https://REGION-PROJECT_ID.cloudfunctions.net/create_job url: https://REGION-PROJECT_ID.cloudfunctions.net/poll_bigquery_job url: https://REGION-PROJECT_ID.cloudfunctions.net/run_bigquery_job url: https://REGION-PROJECT_ID.cloudfunctions.net/create_query
  Prendi nota di questi URL perché ti serviranno quando implementerai il workflow.
Crea ed esegui il deployment di un flusso di lavoro
1. In Cloud Shell, apri il file di origine del flusso di lavoro, workflow.yaml:
  main: steps: - constants: assign: - create_job_url: CREATE_JOB_URL - poll_job_url: POLL_BIGQUERY_JOB_URL - run_job_url: RUN_BIGQUERY_JOB_URL - create_query_url: CREATE_QUERY_URL - region: BQ_REGION - table_name: BQ_DATASET_TABLE_NAME next: createJob - createJob: call: http.get args: url: ${create_job_url} auth: type: OIDC query: region: ${region} table_name: ${table_name} result: job next: setJobId - setJobId: assign: - job_id: ${job.body.job_id} next: jobCreateCheck - jobCreateCheck: switch: - condition: ${job_id == Null} next: noOpJob next: runLoadJob - runLoadJob: call: runBigQueryJob args: job_id: ${job_id} run_job_url: ${run_job_url} poll_job_url: ${poll_job_url} result: jobStatus next: loadRunCheck - loadRunCheck: switch: - condition: ${jobStatus == 2} next: createQueryJob next: failedLoadJob - createQueryJob: call: http.get args: url: ${create_query_url} query: qs: "select count(*) from serverless_elt_dataset.word_count" region: "US" auth: type: OIDC result: queryjob next: setQueryJobId - setQueryJobId: assign: - qid: ${queryjob.body.job_id} next: queryCreateCheck - queryCreateCheck: switch: - condition: ${qid == Null} next: failedQueryJob next: runQueryJob - runQueryJob: call: runBigQueryJob args: job_id: ${qid} run_job_url: ${run_job_url} poll_job_url: ${poll_job_url} result: queryJobState next: runQueryCheck - runQueryCheck: switch: - condition: ${queryJobState == 2} next: allDone next: failedQueryJob - noOpJob: return: "No files to import" next: end - allDone: return: "All done!" next: end - failedQueryJob: return: "Query job failed" next: end - failedLoadJob: return: "Load job failed" next: end runBigQueryJob: params: [job_id, run_job_url, poll_job_url] steps: - startBigQueryJob: try: call: http.get args: url: ${run_job_url} query: job_id: ${job_id} auth: type: OIDC timeout: 600 result: submitJobState retry: ${http.default_retry} next: validateSubmit - validateSubmit: switch: - condition: ${submitJobState.body.status == 1} next: sleepAndPollLoad next: returnState - returnState: return: ${submitJobState.body.status} - sleepAndPollLoad: call: sys.sleep args: seconds: 5 next: pollJob - pollJob: try: call: http.get args: url: ${poll_job_url} query: job_id: ${job_id} auth: type: OIDC timeout: 600 result: pollJobState retry: predicate: ${http.default_retry_predicate} max_retries: 10 backoff: initial_delay: 1 max_delay: 60 multiplier: 2 next: stateCheck - stateCheck: switch: - condition: ${pollJobState.body.status == 2} return: ${pollJobState.body.status} - condition: ${pollJobState.body.status == 3} return: ${pollJobState.body.status} next: sleepAndPollLoad
  Sostituisci quanto segue:
  - CREATE_JOB_URL: l'URL della funzione per creare un nuovo job
  - POLL_BIGQUERY_JOB_URL: l'URL della funzione per eseguire il polling dello stato di un job in esecuzione
  - RUN_BIGQUERY_JOB_URL: l'URL della funzione per avviare un job di caricamento BigQuery
  - CREATE_QUERY_URL: l'URL della funzione per avviare un job di query BigQuery
  - BQ_REGION: la regione BigQuery in cui vengono archiviati i dati, ad esempio US
  - BQ_DATASET_TABLE_NAME: il nome della tabella del set di dati BigQuery nel formato PROJECT_ID.serverless_elt_dataset.word_count
2. Esegui il deployment del file workflow:
  gcloud workflows deploy WORKFLOW_NAME \ --location=WORKFLOW_REGION \ --description='WORKFLOW_DESCRIPTION' \ --service-account=workflow-runner@PROJECT_ID.iam.gserviceaccount.com \ --source=workflow.yaml
  Sostituisci quanto segue:
  - WORKFLOW_NAME: il nome univoco del flusso di lavoro
  - WORKFLOW_REGION: la regione in cui viene eseguito il deployment del flusso di lavoro, ad esempio us-central1
  - WORKFLOW_DESCRIPTION: la descrizione del workflow
3. Crea un ambiente virtuale Python 3 e installa i requisiti per il generatore di file:
  sudo apt-get install -y python3-venv python3 -m venv env . env/bin/activate cd generator pip install -r requirements.txt
Generare file da importare

Lo script Python gen.py genera contenuti casuali in formato Avro. Lo schema è lo stesso della tabella word_count BigQuery. Questi file Avro vengono copiati nel bucket Cloud Storage specificato.

In Cloud Shell, genera i file:
```
python gen.py -p PROJECT_ID \
    -o PROJECT_ID-ordersbucket \
    -n RECORDS_PER_FILE \
    -f NUM_FILES \
    -x FILE_PREFIX
```
Sostituisci quanto segue:
- RECORDS_PER_FILE: il numero di record in un singolo file
- NUM_FILES: il numero totale di file da caricare
- FILE_PREFIX: il prefisso per i nomi dei file generati
Visualizzare le voci dei file in Firestore

Quando i file vengono copiati in Cloud Storage, viene attivata la funzione Cloud Run handle_new_file. Questa funzione aggiunge l'elenco dei file all'array dell'elenco dei file nel documento new nella raccolta Firestore jobs.

Per visualizzare l'elenco dei file, nella console Google Cloud , vai alla pagina Dati di Firestore.

Vai a Dati

Attivare il workflow

Workflows collega una serie di attività serverless daGoogle Cloud e servizi API. I singoli passaggi di questo flusso di lavoro vengono eseguiti come funzioni Cloud Run e lo stato viene archiviato in Firestore. Tutte le chiamate alle funzioni Cloud Run vengono autenticate utilizzando l'account di servizio del flusso di lavoro.

In Cloud Shell, esegui il flusso di lavoro:
```
gcloud workflows execute WORKFLOW_NAME
```
Il seguente diagramma mostra i passaggi utilizzati nel flusso di lavoro:

Il flusso di lavoro è suddiviso in due parti: il flusso di lavoro principale e il flusso di lavoro secondario. Il workflow principale gestisce la creazione dei job e l'esecuzione condizionale, mentre il workflow secondario esegue un job BigQuery. Il flusso di lavoro esegue le seguenti operazioni:
- La funzione Cloud Run create_job crea un nuovo oggetto job, recupera l'elenco dei file aggiunti a Cloud Storage dal documento Firestore e associa i file al job di caricamento. Se non ci sono file da caricare, la funzione non crea un nuovo job.
- La funzione Cloud Run create_query accetta la query da eseguire insieme alla regione BigQuery in cui deve essere eseguita. La funzione crea il job in Firestore e restituisce l'ID job.
- La funzione Cloud Run run_bigquery_job recupera l'ID del job da eseguire, quindi chiama l'API BigQuery per inviare il job.
- Anziché attendere il completamento del job nella funzione Cloud Run, puoi eseguire periodicamente il polling dello stato del job.
  - La funzione Cloud Run poll_bigquery_job fornisce lo stato del job. Viene chiamato ripetutamente fino al completamento del job.
  - Per aggiungere un ritardo tra le chiamate alla funzione Cloud Run, viene chiamata una routine sleep da Workflows.poll_bigquery_job
Visualizzare lo stato del job

Puoi visualizzare l'elenco dei file e lo stato del job.
1. Nella console Google Cloud , vai alla pagina Dati di Firestore.
  
  Vai a Dati
2. Per ogni job viene generato un identificatore univoco (UUID). Per visualizzare job_type e status, fai clic sull'ID job. Ogni job può avere uno dei seguenti tipi e stati:
  - job_type: Il tipo di job eseguito dal flusso di lavoro con uno dei seguenti valori:
    
    0: Carica i dati in BigQuery.
    
    1. Esegui una query in BigQuery.
  - status: lo stato attuale del job con uno dei seguenti valori:
    
    0: Il job è stato creato, ma non avviato.
    
    1: Il job è in esecuzione.
    
    2: L'esecuzione del job è stata completata correttamente.
    
    3: Si è verificato un errore e il job non è stato completato correttamente.
  L'oggetto job contiene anche attributi di metadati come la regione del set di dati BigQuery, il nome della tabella BigQuery e, se si tratta di un job di query, la stringa di query in esecuzione.
Visualizzare i dati in BigQuery

Per verificare che il job ELT sia andato a buon fine, controlla che i dati vengano visualizzati nella tabella.
1. Nella console Google Cloud , vai alla pagina Editor di BigQuery.
  
  Vai all'editor
2. Fai clic sulla tabella serverless_elt_dataset.word_count.
3. Fai clic sulla scheda Anteprima.
Pianifica il workflow

Per eseguire periodicamente il flusso di lavoro in base a una pianificazione, puoi utilizzare Cloud Scheduler.
Esegui la pulizia
Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial. Google Cloud In alternativa, puoi eliminare le singole risorse.

Elimina le singole risorse
1. In Cloud Shell, rimuovi tutte le risorse create utilizzando Terraform:
```
cd $HOME/bigquery-workflows-load
terraform destroy \
-var project_id=PROJECT_ID \
-var region=REGION \
-var zone=ZONE \
--auto-approve
```
2. Nella console Google Cloud , vai alla pagina Dati di Firestore.
  
  Vai a Dati
3. Accanto a Lavori, fai clic su Menu e seleziona Elimina.
Elimina il progetto
1. In the Google Cloud console, go to the Manage resources page.
  Go to Manage resources
2. In the project list, select the project that you want to delete, and then click Delete.
3. In the dialog, type the project ID, and then click Shut down to delete the project.
Passaggi successivi
- Per scoprire di più su BigQuery, consulta la documentazione di BigQuery.
- Scopri come creare pipeline di machine learning personalizzate serverless.
- Per ulteriori architetture di riferimento, diagrammi e best practice, esplora il Cloud Architecture Center.

Caricare i dati da Cloud Storage in BigQuery utilizzando Workflows Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Architettura

Obiettivi

Costi

Prima di iniziare

prepara l'ambiente

Crea ed esegui il deployment di un flusso di lavoro

Generare file da importare

Visualizzare le voci dei file in Firestore

Attivare il workflow

Visualizzare lo stato del job

Visualizzare i dati in BigQuery

Pianifica il workflow

Esegui la pulizia

Elimina le singole risorse

Elimina il progetto

Passaggi successivi

Caricare i dati da Cloud Storage in BigQuery utilizzando Workflows