Melakukan orkestrasi workload

Tugas BigQuery biasanya merupakan bagian dari beban kerja yang lebih besar, dengan tugas eksternal yang dipicu oleh operasi BigQuery. Orkestrasi beban kerja membantu administrator data, analis, dan developer mengatur dan mengoptimalkan rantai tindakan ini, sehingga menciptakan koneksi yang lancar di seluruh proses dan resource data. Metode dan alat orkestrasi membantu dalam merancang, membangun, mengimplementasikan, dan memantau beban kerja data yang kompleks ini.

Memilih metode orkestrasi

Untuk memilih metode orkestrasi, Anda harus mengidentifikasi apakah beban kerja Anda didorong oleh peristiwa, berbasis waktu, atau keduanya. Peristiwa didefinisikan sebagai perubahan status, seperti perubahan pada data dalam database atau file yang ditambahkan ke sistem penyimpanan. Dalam orkestrasi berbasis peristiwa, tindakan di situs dapat memicu aktivitas data, atau objek yang mendarat di bucket tertentu mungkin perlu segera diproses saat kedatangan. Dalam orkestrasi berbasis waktu, data baru mungkin perlu dimuat sekali sehari atau cukup sering untuk menghasilkan laporan per jam. Anda dapat menggunakan orkestrasi berbasis peristiwa dan berbasis waktu dalam skenario saat Anda perlu memuat objek ke data lake secara real time, tetapi laporan aktivitas tentang danau data hanya dibuat setiap hari.

Memilih alat orkestrasi

Alat orkestrasi membantu tugas-tugas yang terlibat dalam mengelola beban kerja data yang kompleks, seperti menggabungkan beberapa layanan Google Cloud atau pihak ketiga dengan tugas BigQuery, atau menjalankan beberapa tugas BigQuery secara paralel. Setiap beban kerja memiliki persyaratan unik untuk pengelolaan dependensi dan parameter untuk memastikan bahwa tugas dijalankan dalam urutan yang benar menggunakan data yang benar. Google Cloud menyediakan beberapa opsi orkestrasi yang didasarkan pada metode orkestrasi dan persyaratan beban kerja.

Sebaiknya gunakan Dataform, Workflows, Cloud Composer, atau Vertex AI Pipelines untuk sebagian besar kasus penggunaan. Lihat diagram berikut untuk perbandingan secara berdampingan:

Dataform Workflows Cloud Composer Vertex AI Pipelines
Fokus Transformasi data Arsitektur ETL atau ELT Machine learning
Kompleksitas * ** *** **
Profil pengguna Analis atau admin data Data architect Data engineer Data analyst
Jenis kode JavaScript dan SQL YAML atau JSON Python Python
Serverless? Ya Ya Terkelola sepenuhnya Ya
Tidak cocok untuk Jaringan bisnis eksternal Transformasi dan pemrosesan data Pipeline berbasis peristiwa atau latensi rendah Tugas infrastruktur

Bagian berikut menjelaskan alat orkestrasi ini dan beberapa alat lainnya.

Kueri terjadwal

Bentuk orkestrasi workload yang paling sederhana adalah menjadwalkan kueri berulang langsung di BigQuery. Meskipun ini adalah pendekatan yang paling tidak kompleks untuk orkestrasi, sebaiknya hanya untuk rantai kueri sederhana tanpa dependensi eksternal. Kueri yang dijadwalkan dengan cara ini harus ditulis di GoogleSQL dan dapat mencakup bahasa definisi data (DDL) dan pernyataan bahasa manipulasi data (DML).

Metode orkestrasi: berdasarkan waktu

Dataform

Dataform (pratinjau) adalah framework transformasi dogmatis gratis berbasis SQL yang mengatur tugas transformasi data yang kompleks di BigQuery. Saat data mentah dimuat ke BigQuery, Dataform membantu Anda membuat kumpulan set data dan tabel yang terorganisir, diuji, dan dikontrol versi. Untuk mempelajari lebih lanjut cara menggunakan Dataform dengan BigQuery, baca Membuat dan menjalankan alur kerja SQL.

Metode orkestrasi: berdasarkan peristiwa

Workflows

Workflows adalah alat serverless yang mengatur layanan berbasis HTTP dengan latensi sangat rendah. Cara terbaik adalah untuk merangkai microservice, mengotomatiskan tugas infrastruktur, mengintegrasikan dengan sistem eksternal, atau membuat urutan operasi di Google Cloud. Untuk mempelajari lebih lanjut cara menggunakan Workflows dengan BigQuery, lihat Menjalankan beberapa tugas BigQuery secara paralel.

Metode orkestrasi: berdasarkan peristiwa dan berdasarkan waktu

Cloud Composer

Cloud Composer adalah alat terkelola sepenuhnya yang memanfaatkan Apache Airflow. Pilihan ini cocok untuk mengekstrak, mentransformasi, memuat (ETL) atau mengekstrak, memuat, mengubah (ELT) beban kerja karena mendukung beberapa jenis dan pola operator, serta eksekusi tugas di seluruh produk Google Cloud lainnya dan target eksternal. Untuk mempelajari lebih lanjut cara menggunakan Cloud Composer dengan BigQuery, baca artikel Menjalankan DAG analisis data di Google Cloud.

Metode orkestrasi: berdasarkan waktu

Vertex AI Pipelines

Vertex AI Pipelines adalah alat serverless berdasarkan Kubeflow Pipelines yang dirancang khusus untuk mengorkestrasi beban kerja machine learning. Platform ini mengotomatiskan dan menghubungkan semua tugas pengembangan dan deployment model Anda, mulai dari data pelatihan hingga kode, sehingga memberi Anda gambaran lengkap tentang cara kerja model. Untuk mempelajari lebih lanjut cara menggunakan Vertex AI Pipelines dengan BigQuery, lihat Mengekspor dan men-deploy model machine learning BigQuery untuk prediksi.

Metode orkestrasi: berdasarkan peristiwa

Apigee Integration

Apigee Integration adalah ekstensi platform Apigee yang mencakup konektor dan alat transformasi data. Paling cocok untuk berintegrasi dengan aplikasi perusahaan eksternal, seperti Salesforce. Untuk mempelajari lebih lanjut cara menggunakan Integrasi Apigee dengan BigQuery, lihat Memulai Apigee Integration dan pemicu Salesforce.

Metode orkestrasi: berdasarkan peristiwa dan berdasarkan waktu

Cloud Data Fusion

Cloud Data Fusion adalah alat integrasi data yang menawarkan pipeline ELT/ETL bebas kode serta lebih dari 150 konektor dan transformasi yang telah dikonfigurasi sebelumnya. Untuk mempelajari lebih lanjut cara menggunakan Cloud Data Fusion dengan BigQuery, baca Mereplikasi data dari MySQL ke BigQuery.

Metode orkestrasi: berdasarkan peristiwa dan berdasarkan waktu

Cloud Scheduler

Cloud Scheduler adalah penjadwal yang terkelola sepenuhnya untuk tugas seperti streaming batch atau operasi infrastruktur yang harus terjadi pada interval waktu yang ditentukan. Untuk mempelajari lebih lanjut cara menggunakan Cloud Scheduler dengan BigQuery, baca Menjadwalkan alur kerja dengan Cloud Scheduler.

Metode orkestrasi: berdasarkan waktu

Cloud Tasks

Cloud Tasks adalah layanan terkelola sepenuhnya untuk distribusi tugas asinkron dari tugas yang dapat dijalankan secara independen, di luar beban kerja utama Anda. Opsi ini paling cocok untuk mendelegasikan operasi latar belakang yang lambat atau mengelola tarif panggilan API. Untuk mempelajari lebih lanjut cara menggunakan Cloud Tasks dengan BigQuery, baca artikel Menambahkan tugas ke antrean Cloud Tasks.

Metode orkestrasi: berdasarkan peristiwa

Alat pihak ketiga

Anda juga dapat terhubung ke BigQuery menggunakan sejumlah alat pihak ketiga yang populer seperti CData dan SnapLogic. Program BigQuery Ready menawarkan daftar lengkap solusi partner yang divalidasi.

Alat fitur pesan

Banyak beban kerja data memerlukan koneksi pesan tambahan antara microservice yang dipisahkan, yang hanya perlu diaktifkan saat peristiwa tertentu terjadi. Google Cloud menyediakan dua alat yang dirancang untuk diintegrasikan dengan BigQuery.

Pub/Sub

Pub/Sub adalah alat pesan asinkron untuk pipeline integrasi data. Layanan ini dirancang untuk menyerap dan mendistribusikan data seperti peristiwa server dan interaksi pengguna. Ini juga dapat digunakan untuk pemrosesan paralel dan streaming data dari perangkat IoT. Untuk mempelajari lebih lanjut cara menggunakan Pub/Sub dengan BigQuery, baca Streaming dari Pub/Sub ke BigQuery.

Eventarc

Eventarc adalah alat berbasis peristiwa yang memungkinkan Anda mengelola alur perubahan status di seluruh pipeline data. Alat ini memiliki berbagai kasus penggunaan, termasuk perbaikan error otomatis, pelabelan resource, retouch gambar, dan banyak lagi. Untuk mempelajari lebih lanjut cara menggunakan Eventarc dengan BigQuery, lihat Mem-build pipeline pemrosesan BigQuery dengan Eventarc.

Langkah selanjutnya