Membuat pipeline streaming menggunakan template Dataflow
Panduan memulai ini menunjukkan cara membuat pipeline streaming menggunakan template Dataflow yang disediakan Google. Secara khusus, panduan memulai ini menggunakan template Pub/Sub to BigQuery sebagai contoh.
Template Pub/Sub to BigQuery adalah pipeline streaming yang dapat membaca pesan berformat JSON dari topik Pub/Sub dan menulisnya ke tabel BigQuery.
Jika ingin mengikuti panduan langkah demi langkah untuk tugas ini langsung di Konsol Google Cloud, klik Pandu saya:
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Make sure that billing is enabled for your Google Cloud project.
-
Aktifkan API Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, BigQuery, Pub/Sub, and Resource Manager.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Make sure that billing is enabled for your Google Cloud project.
-
Aktifkan API Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, BigQuery, Pub/Sub, and Resource Manager.
- Membuat bucket Cloud Storage:
- Di Konsol Google Cloud, buka halaman Bucket Cloud Storage.
- Klik Buat bucket.
- Di halaman Buat bucket, masukkan informasi bucket Anda. Untuk melanjutkan ke
langkah berikutnya, klik Lanjutkan.
- Untuk Beri nama bucket Anda, masukkan nama bucket yang unik. Jangan sertakan informasi sensitif pada nama bucket, karena namespace bucket bersifat global dan dapat dilihat publik.
-
Untuk Pilih tempat untuk menyimpan data, lakukan tindakan berikut:
- Pilih opsi Jenis lokasi.
- Pilih opsi Lokasi.
- Untuk Memilih kelas penyimpanan default untuk data Anda, pilih opsi berikut: Standar.
- Untuk Memilih cara mengontrol akses ke objek, pilih opsi Kontrol akses.
- Untuk Setelan lanjutan (opsional), tentukan metode enkripsi, kebijakan retensi, atau label bucket.
- Klik Buat.
- Salin kode berikut, karena Anda memerlukannya di bagian selanjutnya:
- Nama bucket Cloud Storage Anda.
- ID Project Google Cloud Anda.
Untuk menemukan ID ini, lihat Mengidentifikasi project.
Untuk menyelesaikan langkah-langkah dalam panduan memulai ini, akun pengguna Anda harus memiliki peran Admin Dataflow dan peran Pengguna Akun Layanan. Akun layanan default Compute Engine harus memiliki peran Dataflow Worker, peran Storage Object Admin, peran Pub/Sub Editor, peran BigQuery Data Editor, dan peran Viewer. Untuk menambahkan peran yang diperlukan di konsol Google Cloud:
- Buka halaman IAM dan pilih project Anda.
Buka IAM - Di baris yang berisi akun pengguna Anda, klik Edit akun utama. Klik Add another role, lalu tambahkan peran berikut: Dataflow Admin dan Service Account User.
- Klik Simpan.
- Pada baris yang berisi akun layanan default Compute Engine (PROJECT_NUMBER-compute@), klik Edit akun utama.
- Klik Tambahkan peran lain, lalu tambahkan peran berikut: Pekerja Dataflow, Admin Objek Penyimpanan, Editor Pub/Sub, BigQuery Data Editor, Pelihat.
Klik Simpan.
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Memberikan peran IAM menggunakan konsol.
- Buka halaman IAM dan pilih project Anda.
- Secara default, setiap project baru dimulai dengan jaringan default.
Jika jaringan default untuk project Anda dinonaktifkan
atau dihapus, Anda harus memiliki jaringan di project yang akun penggunanya memiliki
peran Compute Network User
(
roles/compute.networkUser
).
Membuat set data dan tabel BigQuery
Buat set data dan tabel BigQuery dengan skema yang sesuai untuk topik Pub/Sub Anda menggunakan konsol Google Cloud.
Dalam contoh ini, nama set data adalah taxirides
dan nama tabel adalah realtime
. Untuk membuat set data dan tabel ini, ikuti langkah-langkah berikut:
- Buka halaman BigQuery.
Buka BigQuery - Di panel Explorer, di samping project tempat Anda ingin membuat set data, klik View actions, lalu klik Create dataset.
- Di panel Create dataset, ikuti langkah-langkah berikut:
- Untuk Dataset ID, masukkan
taxirides
. ID set data bersifat unik untuk setiap project Google Cloud. - Untuk Location type, pilih Multi-region, lalu pilih US (multiple regions in United States). Set data publik disimpan di lokasi multi-region
US
. Agar lebih mudah, tempatkan set data Anda di lokasi yang sama. - Tetap gunakan setelan default lainnya, lalu klik Create dataset
- Di panel
Explorer , luaskan project Anda. - Di samping set data
taxirides
, klik View actions, lalu klik Create table. - Di panel Create table, ikuti langkah-langkah berikut:
- Di bagian Source, untuk Create table from, pilih Empty table.
- Di bagian Destination, untuk Table, masukkan
realtime
. - Di bagian Schema, klik tombol Edit as text dan tempelkan
definisi skema berikut ke dalam kotak:
ride_id:string,point_idx:integer,latitude:float,longitude:float,timestamp:timestamp, meter_reading:float,meter_increment:float,ride_status:string,passenger_count:integer
- Di bagian Partition and cluster settings, untuk Partitioning, pilih kolom timestamp.
- Tetap gunakan setelan default lainnya, lalu klik Create table.
Menjalankan pipeline
Jalankan pipeline streaming menggunakan template Pub/Sub to BigQuery yang disediakan Google. Pipeline mendapatkan data masuk dari topik input.
- Buka halaman Tugas Dataflow.
Buka Tugas - Klik
Create job from template . - Masukkan
taxi-data
sebagai Nama tugas untuk tugas Dataflow Anda. - Untuk Dataflow template, pilih template Pub/Sub to BigQuery.
- Untuk BigQuery output table, masukkan hal berikut:
PROJECT_ID:taxirides.realtime
Ganti
PROJECT_ID
dengan project ID project tempat Anda membuat set data BigQuery. - Di bagian Optional source parameters, untuk Input Pub/Sub topic, klik Enter topic manually.
- Dalam dialog, untuk Topic name, masukkan hal berikut, lalu klik Save:
projects/pubsub-public-data/topics/taxirides-realtime
Topik Pub/Sub yang tersedia secara publik ini didasarkan pada set data terbuka NYC Taxi & Limousine Commission. Berikut adalah contoh pesan dari topik ini, dalam format JSON:
{ "ride_id": "19c41fc4-e362-4be5-9d06-435a7dc9ba8e", "point_idx": 217, "latitude": 40.75399, "longitude": -73.96302, "timestamp": "2021-03-08T02:29:09.66644-05:00", "meter_reading": 6.293821, "meter_increment": 0.029003782, "ride_status": "enroute", "passenger_count": 1 }
- Untuk Temp location, masukkan hal berikut:
gs://BUCKET_NAME/temp/
Ganti
BUCKET_NAME
dengan nama bucket Cloud Storage Anda. Foldertemp
menyimpan file sementara, seperti tugas pipeline yang di-staging. - Jika project Anda tidak memiliki jaringan default, masukkan Jaringan dan Subjaringan. Untuk mengetahui informasi selengkapnya, lihat Menentukan jaringan dan subnetwork.
- Klik Run job.
Melihat hasil
Untuk melihat data yang ditulis ke tabelrealtime
, ikuti langkah-langkah berikut:
Buka halaman BigQuery.
Klik
Compose a new query. Tab Editor baru akan terbuka.SELECT * FROM `PROJECT_ID.taxirides.realtime` WHERE `timestamp` > TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 1 DAY) LIMIT 1000
Ganti
PROJECT_ID
dengan project ID project tempat Anda membuat set data BigQuery. Mungkin perlu waktu hingga lima menit agar data mulai muncul di tabel Anda.Klik Run.
Kueri menampilkan baris yang telah ditambahkan ke tabel dalam 24 jam terakhir. Anda juga dapat menjalankan kueri menggunakan SQL standar.
Pembersihan
Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
Menghapus project
Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project Google Cloud yang Anda buat untuk panduan memulai.- Di konsol Google Cloud, buka halaman Manage resource.
- Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
- Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.
Menghapus resource satu per satu
Jika ingin menyimpan project Google Cloud yang digunakan dalam panduan memulai ini, hapus setiap resource:
- Buka halaman Tugas Dataflow.
Buka Tugas - Pilih tugas streaming Anda dari daftar tugas.
- Di navigasi, klik Stop.
- Di dialog Stop job, cancel atau drain pipeline Anda, lalu klik Stop job.
- Buka halaman BigQuery.
Buka BigQuery - Di panel Explorer, luaskan project Anda.
- Di samping set data yang ingin Anda hapus, klik Lihat tindakan, lalu klik Buka.
- Di panel detail, klik Delete dataset, lalu ikuti petunjuknya.
- Di konsol Google Cloud, buka halaman Buckets Cloud Storage.
- Klik kotak centang untuk bucket yang ingin Anda dihapus.
- Untuk menghapus bucket, klik Hapus, lalu ikuti petunjuk.