Architettura
Il seguente diagramma mostra l'architettura di alto livello di una pipeline ELT (estrazione, caricamento e trasformazione) serverless che utilizza Workflows.
Nel diagramma precedente, prendi in considerazione una piattaforma di vendita al dettaglio che raccoglie periodicamente gli eventi di vendita sotto forma di file da vari negozi e poi li scrive in un bucket Cloud Storage. Gli eventi vengono utilizzati per fornire metriche aziendali tramite l'importazione e l'elaborazione in BigQuery. Questa architettura fornisce un sistema di orchestrazione affidabile e serverless per importare i file in BigQuery ed è suddivisa nei seguenti due moduli:
- Elenco file: mantiene l'elenco dei file non elaborati aggiunti a un bucket Cloud Storage in una raccolta Firestore.
Questo modulo funziona tramite una funzione Cloud Run attivata da un evento di archiviazione Object Finalize, generato quando un nuovo file viene aggiunto al bucket Cloud Storage. Il nome file viene aggiunto all'array
files
della raccolta denominatanew
in Firestore. Workflow: esegue i workflow pianificati. Cloud Scheduler attiva un flusso di lavoro che esegue una serie di passaggi in base a una sintassi basata su YAML per orchestrare il caricamento e poi trasformare i dati in BigQuery chiamando funzioni Cloud Run. I passaggi del flusso di lavoro chiamano le funzioni Cloud Run per eseguire le seguenti attività:
- Crea e avvia un job di caricamento BigQuery.
- Controlla lo stato del job di caricamento.
- Crea e avvia il job di query di trasformazione.
- Controlla lo stato del job di trasformazione.
L'utilizzo delle transazioni per gestire l'elenco dei nuovi file in Firestore consente di garantire che nessun file venga perso quando un flusso di lavoro li importa in BigQuery. Le esecuzioni separate del flusso di lavoro vengono rese idempotenti memorizzando i metadati e lo stato del job in Firestore.
Obiettivi
- Crea un database Firestore.
- Configura un trigger della funzione Cloud Run per monitorare i file aggiunti al bucket Cloud Storage in Firestore.
- Esegui il deployment di funzioni Cloud Run per eseguire e monitorare i job BigQuery.
- Esegui il deployment ed esegui un flusso di lavoro per automatizzare il processo.
Costi
In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:
Per generare una stima dei costi in base all'utilizzo previsto,
utilizza il Calcolatore prezzi.
Al termine delle attività descritte in questo documento, puoi evitare la fatturazione continua eliminando le risorse che hai creato. Per ulteriori informazioni, consulta la sezione Pulizia.
Prima di iniziare
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Build, Cloud Run functions, Identity and Access Management, Resource Manager, and Workflows APIs.
Vai alla pagina Ti diamo il benvenuto e prendi nota dell'ID progetto da utilizzare in un passaggio successivo.
In the Google Cloud console, activate Cloud Shell.
prepara l'ambiente
Per preparare l'ambiente, crea un database Firestore, clona gli esempi di codice dal repository GitHub, crea risorse utilizzando Terraform, modifica il file YAML di Workflows e installa i requisiti per il generatore di file.
Per creare un database Firestore:
Nella console Google Cloud, vai alla pagina Firestore.
Fai clic su Seleziona modalità nativa.
Nel menu Seleziona una località, seleziona la regione in cui vuoi ospitare il database Firestore. Ti consigliamo di scegliere una regione vicina alla tua posizione fisica.
Fai clic su Crea database.
In Cloud Shell, clona il repository di origine:
cd $HOME && git clone https://github.com/GoogleCloudPlatform/workflows-demos cd workflows-demos/workflows-bigquery-load
In Cloud Shell, crea le seguenti risorse utilizzando Terraform:
terraform init terraform apply \ -var project_id=PROJECT_ID \ -var region=REGION \ -var zone=ZONE \ --auto-approve
Sostituisci quanto segue:
PROJECT_ID
: il tuo ID progetto Google CloudREGION
: una posizione geografica specifica di Google Cloud per ospitare le risorse, ad esempious-central1
ZONE
: una località all'interno di una regione in cui ospitare le tue risorse, ad esempious-central1-b
Dovresti vedere un messaggio simile al seguente:
Apply complete! Resources: 7 added, 0 changed, 1 destroyed.
Terraform può aiutarti a creare, modificare e eseguire l'upgrade dell'infrastruttura su larga scala in modo sicuro e prevedibile. Nel progetto vengono create le seguenti risorse:
- Account di servizio con i privilegi richiesti per garantire l'accesso sicuro alle risorse.
- Un set di dati BigQuery denominato
serverless_elt_dataset
e una tabella denominataword_count
per caricare i file in arrivo. - Un bucket Cloud Storage denominato
${project_id}-ordersbucket
per l'archiviazione temporanea dei file di input. - Le seguenti cinque funzioni Cloud Run:
file_add_handler
aggiunge il nome dei file aggiunti al bucket Cloud Storage alla raccolta Firestore.create_job
crea un nuovo job di caricamento BigQuery e associa i file della raccolta Firebase al job.create_query
crea un nuovo job di query BigQuery.poll_bigquery_job
recupera lo stato di un job BigQuery.run_bigquery_job
avvia un job BigQuery.
Recupera gli URL delle funzioni Cloud Run
create_job
,create_query
,poll_job
erun_bigquery_job
di cui hai eseguito il deployment nel passaggio precedente.gcloud functions describe create_job | grep url gcloud functions describe poll_bigquery_job | grep url gcloud functions describe run_bigquery_job | grep url gcloud functions describe create_query | grep url
L'output è simile al seguente:
url: https://REGION-PROJECT_ID.cloudfunctions.net/create_job url: https://REGION-PROJECT_ID.cloudfunctions.net/poll_bigquery_job url: https://REGION-PROJECT_ID.cloudfunctions.net/run_bigquery_job url: https://REGION-PROJECT_ID.cloudfunctions.net/create_query
Prendi nota di questi URL, poiché sono necessari per il deployment del flusso di lavoro.
Crea ed esegui il deployment di un flusso di lavoro
In Cloud Shell, apri il file di origine per il flusso di lavoro,
workflow.yaml
:Sostituisci quanto segue:
CREATE_JOB_URL
: l'URL della funzione per creare un nuovo jobPOLL_BIGQUERY_JOB_URL
: l'URL della funzione per eseguire il polling dello stato di un job in esecuzioneRUN_BIGQUERY_JOB_URL
: l'URL della funzione per avviare un job di caricamento BigQueryCREATE_QUERY_URL
: l'URL della funzione per avviare un job di query BigQueryBQ_REGION
: la regione BigQuery dove vengono archiviati i dati, ad esempioUS
BQ_DATASET_TABLE_NAME
: il nome della tabella del set di dati BigQuery nel formatoPROJECT_ID.serverless_elt_dataset.word_count
Esegui il deployment del file
workflow
:gcloud workflows deploy WORKFLOW_NAME \ --location=WORKFLOW_REGION \ --description='WORKFLOW_DESCRIPTION' \ --service-account=workflow-runner@PROJECT_ID.iam.gserviceaccount.com \ --source=workflow.yaml
Sostituisci quanto segue:
WORKFLOW_NAME
: il nome univoco del flusso di lavoroWORKFLOW_REGION
: la regione in cui è stato eseguito il deployment del workflow, ad esempious-central1
WORKFLOW_DESCRIPTION
: la descrizione del flusso di lavoro
Crea un ambiente virtuale Python 3 e installa i requisiti per il generatore di file:
sudo apt-get install -y python3-venv python3 -m venv env . env/bin/activate cd generator pip install -r requirements.txt
Genera i file da importare
Lo script Python gen.py
genera contenuti casuali in
formato Avro. Lo schema è lo stesso della tabella word_count
di BigQuery. Questi file Avro vengono copiati nel
bucket Cloud Storage specificato.
In Cloud Shell, genera i file:
python gen.py -p PROJECT_ID \ -o PROJECT_ID-ordersbucket \ -n RECORDS_PER_FILE \ -f NUM_FILES \ -x FILE_PREFIX
Sostituisci quanto segue:
RECORDS_PER_FILE
: il numero di record in un singolo fileNUM_FILES
: il numero totale di file da caricareFILE_PREFIX
: il prefisso per i nomi dei file generati
Visualizzare le voci dei file in Firestore
Quando i file vengono copiati in Cloud Storage, viene attivata la funzionehandle_new_file
Cloud Run. Questa funzione aggiunge
l'elenco dei file all'array dell'elenco dei file nel documento new
nella raccolta jobs
di Firestore.
Per visualizzare l'elenco dei file, nella console Google Cloud vai alla pagina Dati di Firestore.
Attiva il flusso di lavoro
Workflows collegano una serie di attività serverless di Google Cloud e dei servizi API. I singoli passaggi di questo flusso di lavoro vengono eseguiti come funzioni Cloud Run e lo stato viene archiviato in Firestore. Tutte le chiamate alle funzioni Cloud Run vengono autenticate utilizzando l'account di servizio del flusso di lavoro.
In Cloud Shell, esegui il flusso di lavoro:
gcloud workflows execute WORKFLOW_NAME
Il seguente diagramma mostra i passaggi utilizzati nel flusso di lavoro:
Il flusso di lavoro è suddiviso in due parti: il flusso di lavoro principale e il flusso di lavoro secondario. Il workflow principale gestisce la creazione e l'esecuzione condizionale dei job, mentre il workflow secondario esegue un job BigQuery. Il flusso di lavoro esegue le seguenti operazioni:
- La funzione
create_job
Cloud Run crea un nuovo oggetto job, recupera l'elenco dei file aggiunti a Cloud Storage dal documento Firestore e li associa al job di caricamento. Se non ci sono file da caricare, la funzione non crea un nuovo job. - La funzione
create_query
Cloud Run prende la query che deve essere eseguita insieme alla regione BigQuery in cui deve essere eseguita. La funzione crea il job in Firestore e restituisce l'ID job. - La funzione Cloud Run
run_bigquery_job
recupera l'ID del job da eseguire e poi chiama l'API BigQuery per inviarlo. - Anziché attendere il completamento del job nella funzione Cloud Run, puoi eseguire periodicamente il polling dello stato del job.
- La funzione
poll_bigquery_job
Cloud Run fornisce il stato del job. Viene chiamato ripetutamente fino al completamento del job. - Per aggiungere un ritardo tra le chiamate alla funzione
poll_bigquery_job
Cloud Run, viene chiamata unasleep
routine da Workflows.
- La funzione
Visualizza lo stato del job
Puoi visualizzare l'elenco dei file e lo stato del job.
Nella console Google Cloud, vai alla pagina Dati di Firestore.
Per ogni job viene generato un identificatore univoco (UUID). Per visualizzare
job_type
estatus
, fai clic sull'ID job. Ogni job può avere uno dei seguenti tipi e stati:job_type
: il tipo di job eseguito dal flusso di lavoro con uno dei seguenti valori:- 0: carica i dati in BigQuery.
- 1: esegui una query in BigQuery.
status
: lo stato corrente del job con uno dei seguenti valori:- 0: il job è stato creato, ma non è stato avviato.
- 1: il job è in esecuzione.
- 2: l'esecuzione del job è stata completata correttamente.
- 3: si è verificato un errore e il job non è stato completato correttamente.
L'oggetto job contiene anche attributi dei metadati, come la regione del set di dati BigQuery, il nome della tabella BigQuery e, se si tratta di un job di query, la stringa di query in esecuzione.
Visualizzare i dati in BigQuery
Per verificare che il job ELT sia andato a buon fine, controlla che i dati vengano visualizzati nella tabella.
Nella console Google Cloud, vai alla pagina Editor di BigQuery.
Fai clic sulla tabella
serverless_elt_dataset.word_count
.Fai clic sulla scheda Anteprima.
Pianifica il flusso di lavoro
Per eseguire periodicamente il flusso di lavoro in base a una pianificazione, puoi utilizzare Cloud Scheduler.
Esegui la pulizia
Il modo più semplice per eliminare la fatturazione è eliminare il progetto Google Cloud che hai creato per il tutorial. In alternativa, puoi eliminare le singole risorse.Elimina le singole risorse
In Cloud Shell, rimuovi tutte le risorse create utilizzando Terraform:
cd $HOME/bigquery-workflows-load terraform destroy \ -var project_id=PROJECT_ID \ -var region=REGION \ -var zone=ZONE \ --auto-approve
Nella console Google Cloud, vai alla pagina Dati di Firestore.
Accanto a Job, fai clic su
Menu e seleziona Elimina.
Elimina il progetto
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Passaggi successivi
- Per scoprire di più su BigQuery, consulta la documentazione di BigQuery.
- Scopri come creare pipeline di machine learning personalizzate serverless.
- Per altre architetture di riferimento, diagrammi e best practice, visita il Cloud Architecture Center.