Orchestrare i carichi di lavoro

Le attività BigQuery fanno solitamente parte di carichi di lavoro più grandi, con attività esterne attivate e poi attivate da operazioni BigQuery. L'orchestrazione dei carichi di lavoro aiuta gli amministratori, gli analisti e gli sviluppatori di dati a organizzare e ottimizzare questa catena di azioni, creando una connessione perfetta tra le risorse e i processi di dati. I metodi e gli strumenti di orchestrazione aiutano a progettare, creare, implementare e monitorare questi carichi di lavoro di dati complessi.

Scegli un metodo di orchestrazione

Per selezionare un metodo di orchestrazione, devi identificare se i tuoi carichi di lavoro sono basati su eventi, sul tempo o su entrambi. Un evento è definito come un cambiamento di stato, come una modifica ai dati di un database o un file aggiunto a un sistema di archiviazione. Nella orchestrazione basata su eventi, un'azione su un sito web potrebbe attivare o che potrebbe essere necessario elaborare un oggetto che atterra in un determinato bucket immediatamente all'arrivo. Nell'orchestrazione basata sul tempo, i nuovi dati potrebbero dover una volta al giorno o con una frequenza sufficiente a generare report orari. Puoi utilizzare l'orchestrazione basata sugli eventi e sul tempo negli scenari in cui è necessario caricare oggetti in un data lake in tempo reale, ma l'attività genera report sui dati vengono generati solo giornalmente.

Scegli uno strumento di orchestrazione

Gli strumenti di orchestrazione aiutano a svolgere le attività necessarie per gestire carichi di lavoro di dati complessi, ad esempio combinare più servizi Google Cloud o di terze parti con job BigQuery o eseguire più job BigQuery in parallelo. Ogni carico di lavoro ha requisiti unici per la gestione delle dipendenze e dei parametri per garantire che le attività vengano eseguite nell'ordine corretto utilizzando i dati corretti. Google Cloud offre diverse opzioni di orchestrazione basate sul metodo di orchestrazione e sui requisiti del carico di lavoro.

Consigliamo di utilizzare Dataform, Workflows Cloud Composer, o Vertex AI Pipelines, per la maggior parte dei casi d'uso. Consulta il seguente grafico per un confronto fianco a fianco:

Dataform Workflows Cloud Composer Vertex AI Pipelines
Evidenzia Trasformazione dei dati Microservizi ETL o ELT Machine learning
complessità * ** *** **
Profilo utente Analista di dati o amministratore Architetto dei dati Data engineer Analista di dati
Tipo di codice JavaScript e SQL YAML o JSON Python Python
Serverless? Completamente gestito
Non adatto per Catene di servizi esterni Trasformazione ed elaborazione dei dati Pipeline a bassa latenza o basate su eventi Attività di infrastruttura

Le seguenti sezioni descrivono nel dettaglio questi strumenti di orchestrazione e molti altri.

Query programmate

La forma più semplice di orchestrazione dei carichi di lavoro è la pianificazione delle query ricorrenti direttamente in BigQuery. Sebbene questo sia l'approccio meno complesso l'orchestrazione, lo consigliamo solo per catene di query semplici senza e dipendenze esterne. Le query pianificate in questo modo devono essere scritte in GoogleSQL e possono includere istruzioni DDL (Data Definition Language) e istruzioni DML (Data Manipulation Language).

Metodo di orchestrazione: basato sul tempo

Dataform

Dataform è un servizio gratuito, basato su SQL, di trasformazione dei dati, che orchestra complesse attività di trasformazione dei dati in BigQuery. Quando i dati non elaborati vengono caricati in BigQuery, Dataform consente di creare una rete organizzata, testata di set di dati e tabelle con controllo delle versioni. Per scoprire di più sull'utilizzo di Dataform con BigQuery, consulta Creare ed eseguire un flusso di lavoro SQL.

Metodo di orchestrazione: basato su eventi

Workflows

Workflows è uno strumento serverless che orchestra i servizi basati su HTTP con latenza molto bassa. È ideale per concatenare di microservizi, automatizzando le attività dell'infrastruttura e integrando sistemi esterni o la creazione di una sequenza di operazioni in Google Cloud. Per saperne di più sull'utilizzo di Workflows con BigQuery, vedi Eseguire più job BigQuery in parallelo.

Metodo di orchestrazione: basato su eventi e basato sul tempo

Cloud Composer

Cloud Composer è uno strumento completamente gestito basato su Apache Airflow. È ideale per i carichi di lavoro ETL (estrazione, trasformazione, caricamento) o ELT (estrazione, caricamento, trasformazione) in quanto supporta diversi tipi e pattern di operatori, nonché l'esecuzione di attività su altri prodotti Google Cloud e target esterni. Per scoprire di più sull'utilizzo di Cloud Composer con BigQuery, consulta Eseguire un DAG di analisi dei dati in Google Cloud.

Metodo di orchestrazione: basato sul tempo

Vertex AI Pipelines

Vertex AI Pipelines è uno strumento serverless basato su Kubeflow Pipelines appositamente progettato per orchestrare i carichi di lavoro di machine learning. Automatizza e collega tutte le attività del tuo modello sviluppo e deployment, dai dati di addestramento al codice, offrendo una di come funzionano i tuoi modelli. Per scoprire di più sull'utilizzo di Vertex AI Pipelines con BigQuery, consulta Esportare ed eseguire il deployment di un modello di machine learning di BigQuery per la previsione.

Metodo di orchestrazione: basato su eventi

Apigee Integration

Integrazione con Apigee è un'estensione della piattaforma Apigee che include connettori e strumenti per la trasformazione dei dati. È ideale per l'integrazione con applicazioni aziendali esterne, come Salesforce. Per scoprire di più sull'utilizzo di Apigee Integration con BigQuery, consulta Introduzione ad Apigee Integration e a un trigger Salesforce.

Metodo di orchestrazione: basato sugli eventi e sul tempo

Cloud Data Fusion

Cloud Data Fusion è uno strumento di integrazione dei dati che offre pipeline ELT/ETL senza codice e oltre 150 connettori preconfigurati e e piccole trasformazioni. Per scoprire di più sull'utilizzo di Cloud Data Fusion con BigQuery, consulta Replicare i dati da MySQL a BigQuery.

Metodo di orchestrazione: basato sugli eventi e sul tempo

Cloud Scheduler

Cloud Scheduler è una piattaforma completamente gestita scheduler per job come flussi di dati batch o operazioni dell'infrastruttura che dovrebbero avvengono a intervalli di tempo definiti. Per scoprire di più sull'utilizzo di Cloud Scheduler con BigQuery, consulta Pianificazione dei flussi di lavoro con Cloud Scheduler.

Metodo di orchestrazione: basato sul tempo

Cloud Tasks

Cloud Tasks è una piattaforma per la distribuzione asincrona delle attività dei job che possono essere eseguiti in modo indipendente, al di fuori del carico di lavoro principale. È ideale per delegare operazioni in background lente o per gestire le frequenze di chiamata dell'API. Per scoprire di più sull'utilizzo di Cloud Tasks con BigQuery, consulta Aggiungi un'attività a una coda di Cloud Tasks.

Metodo di orchestrazione: basato su eventi

Strumenti di terze parti

Puoi anche connetterti a BigQuery utilizzando una serie noti strumenti di terze parti come CData e SnapLogic. La Il programma BigQuery Ready offre elenco completo delle soluzioni dei partner convalidate.

Strumenti di messaggistica

Molti carichi di lavoro di dati richiedono connessioni di messaggistica aggiuntive tra di microservizi che devono essere attivati solo al verificarsi di determinati eventi. Google Cloud offre due strumenti progettati per l'integrazione con BigQuery.

Pub/Sub

Pub/Sub è uno strumento di messaggistica asincrona per le pipeline di integrazione dei dati. È progettato per importare e distribuire dati come eventi del server e interazioni utente. Può essere usato anche per e l'elaborazione del flusso di dati da dispositivi IoT. Per scoprire di più sull'utilizzo Pub/Sub con BigQuery, vedi Flusso di dati da Pub/Sub a BigQuery.

Eventarc

Eventarc è uno strumento basato su eventi che consente di gestire il flusso delle modifiche di stato nell'intera pipeline di dati. Questo ha un'ampia gamma di casi d'uso, inclusa la correzione automatica degli errori, l'etichettatura delle risorse, il ritocco delle immagini e altro ancora. Per scoprire di più sull'utilizzo di Eventarc con BigQuery, consulta Creare una pipeline di elaborazione di BigQuery con Eventarc.

Passaggi successivi