Membuat pipeline streaming menggunakan template Dataflow

Panduan memulai ini menunjukkan cara membuat pipeline streaming menggunakan template Dataflow yang disediakan oleh Google. Secara khusus, panduan memulai ini menggunakan template Pub/Sub ke BigQuery sebagai contohnya.

Template Pub/Sub ke BigQuery adalah pipeline streaming yang dapat membaca pesan berformat JSON dari topik Pub/Sub dan menulisnya ke tabel BigQuery.

Jika ingin mengikuti panduan langkah demi langkah untuk tugas ini langsung di Konsol Google Cloud, klik Pandu saya:

Pandu saya

Sebelum memulai

Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.

Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

Buka pemilih project

Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

Enable the Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, BigQuery, Pub/Sub, and Resource Manager APIs.

Enable the APIs

Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

Buka pemilih project

Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

Enable the Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, BigQuery, Pub/Sub, and Resource Manager APIs.

Enable the APIs

Membuat bucket Cloud Storage:

Di Konsol Google Cloud, buka halaman Bucket Cloud Storage.
Buka halaman Bucket
Klik Buat bucket.
Di halaman Buat bucket, masukkan informasi bucket Anda. Untuk melanjutkan ke langkah berikutnya, klik Lanjutkan.
- Untuk Beri nama bucket Anda, masukkan nama bucket yang unik. Jangan sertakan informasi sensitif pada nama bucket, karena namespace bucket bersifat global dan dapat dilihat publik.
- Untuk Pilih tempat untuk menyimpan data, lakukan tindakan berikut:
  - Pilih opsi Jenis lokasi.
  - Pilih opsi Lokasi.
- Untuk Memilih kelas penyimpanan default untuk data Anda, pilih opsi berikut: Standar.
- Untuk Memilih cara mengontrol akses ke objek, pilih opsi Kontrol akses.
- Untuk Setelan lanjutan (opsional), tentukan metode enkripsi, kebijakan retensi, atau label bucket.
Klik Buat.

Salin kode berikut sesuai kebutuhan Anda di bagian selanjutnya:
- Nama bucket Cloud Storage Anda.
- ID Project Google Cloud Anda.
  
  Untuk menemukan ID ini, lihat Mengidentifikasi project.
Untuk menyelesaikan langkah-langkah dalam panduan memulai ini, akun pengguna Anda harus memiliki peran Admin Dataflow dan peran Service Account User. Akun layanan default Compute Engine harus memiliki peran Pekerja Dataflow. Untuk menambahkan peran yang diperlukan di Konsol Google Cloud:
1. Buka halaman IAM.
  Buka IAM
2. Pilih project Anda.
3. Di baris yang berisi akun pengguna Anda, klik Edit akun utama, lalu klik Tambahkan peran lain.
4. Di menu drop-down, pilih peran Dataflow Admin.
5. Ulangi untuk peran Service Account User, lalu klik Save.
6. Pada baris yang berisi akun layanan default Compute Engine, klik Edit principal, lalu klik Add another role.
7. Di menu drop-down, pilih peran Dataflow Worker.
8. Ulangi untuk peran Pub/Sub Editor dan BigQuery Data Editor, lalu klik Save.
  
  Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Memberikan peran IAM dengan menggunakan konsol.
Secara default, setiap project baru dimulai dengan jaringan default. Jika jaringan default untuk project Anda dinonaktifkan atau dihapus, Anda harus memiliki jaringan di project yang akun pengguna Anda memiliki peran Pengguna Jaringan Compute (roles/compute.networkUser).

Membuat set data dan tabel BigQuery

Buat set data dan tabel BigQuery dengan skema yang sesuai untuk topik Pub/Sub Anda menggunakan Konsol Google Cloud.

Dalam contoh ini, nama set data adalah taxirides dan nama tabelnya adalah realtime. Untuk membuat {i>dataset<i} dan tabel ini, ikuti langkah-langkah berikut:

Buka halaman BigQuery.
Buka BigQuery
Di panel Explorer, di samping project tempat Anda ingin membuat set data, klik View actions, lalu klik Create dataset.
Catatan: Pengalaman default adalah konsol Google Cloud Pratinjau. Jika Anda mengklik Sembunyikan fitur pratinjau untuk membuka Konsol Google Cloud, maka lakukan langkah berikut: Di panel navigasi, di bagian Resource, pilih project Anda.
Di panel Buat set data, ikuti langkah-langkah berikut:

Untuk Dataset ID, masukkan taxirides. ID set data bersifat unik untuk setiap project Google Cloud.
Untuk Jenis lokasi, pilih Multi-region, lalu pilih AS (beberapa region di Amerika Serikat). Set data publik disimpan di lokasi multi-region US. Agar lebih mudah, tempatkan set data Anda di lokasi yang sama.
Tetap gunakan setelan default lainnya, lalu klik Create dataset

Di panel Explorer, luaskan project Anda.
Di samping set data taxirides, klik View actions, lalu klik Create table.
Catatan: Pengalaman default adalah konsol Google Cloud Pratinjau. Jika Anda mengklik Sembunyikan fitur pratinjau untuk membuka Konsol Google Cloud, maka lakukan langkah berikut: Di panel navigasi, di bagian Resource, pilih set data taxirides yang Anda buat.
Di panel Buat tabel, ikuti langkah-langkah berikut:

Di bagian Source, untuk Create table from, pilih Empty table.
Di bagian Destination, untuk Table, masukkan realtime.

Di bagian Schema, klik tombol Edit as text dan tempel definisi skema berikut ke dalam kotak:

ride_id:string,point_idx:integer,latitude:float,longitude:float,timestamp:timestamp,
meter_reading:float,meter_increment:float,ride_status:string,passenger_count:integer

Di bagian Partition and cluster settings, untuk Partitioning, pilih kolom timestamp.

Tetap gunakan setelan default lainnya, lalu klik Create table.

Menjalankan pipeline

Jalankan pipeline streaming menggunakan template Pub/Sub to BigQuery yang disediakan Google. Pipeline mengambil data yang masuk dari topik input.

Buka halaman Jobs Dataflow.
Buka Tugas
Klik Create job from template.
Masukkan taxi-data sebagai Job name untuk tugas Dataflow.
Untuk Dataflow template, pilih template Pub/Sub to BigQuery.
Untuk BigQuery output table, masukkan data berikut:
```
PROJECT_ID:taxirides.realtime
```
Ganti PROJECT_ID dengan project ID project tempat Anda membuat set data BigQuery.
Luaskan Parameter opsional.
Untuk Input Pub/Sub topic, klik Enter topic manually.

Dalam dialog, masukkan nilai berikut untuk Nama topik, lalu klik Simpan:

projects/pubsub-public-data/topics/taxirides-realtime

Topik Pub/Sub yang tersedia untuk publik ini didasarkan pada set data terbuka NYC Taxi & Limousine Commission. Berikut adalah contoh pesan dari topik ini, dalam format JSON:

{
  "ride_id": "19c41fc4-e362-4be5-9d06-435a7dc9ba8e",
  "point_idx": 217,
  "latitude": 40.75399,
  "longitude": -73.96302,
  "timestamp": "2021-03-08T02:29:09.66644-05:00",
  "meter_reading": 6.293821,
  "meter_increment": 0.029003782,
  "ride_status": "enroute",
  "passenger_count": 1
}

Untuk Lokasi sementara, masukkan:
```
gs://BUCKET_NAME/temp/
```
Ganti BUCKET_NAME dengan nama bucket Cloud Storage Anda. Folder temp menyimpan file sementara, seperti tugas pipeline bertahap.
Jika project Anda tidak memiliki jaringan default, masukkan Jaringan dan Subnetwork. Untuk mengetahui informasi selengkapnya, lihat Menentukan jaringan dan subnetwork.
Catatan: Kecuali ditentukan melalui opsi network, runner Dataflow menjalankan tugas di jaringan Virtual Private Cloud default. Jika project Anda tidak memiliki jaringan default dan Anda tidak menentukan jaringan, error akan terjadi. Anda mungkin tidak memiliki jaringan default jika jaringan default telah dihapus atau jika batasan kebijakan organisasi mencegah pembuatan jaringan default.
Klik Run job.

Lihat hasil Anda

Untuk melihat data yang ditulis ke tabel realtime Anda, ikuti langkah-langkah berikut:

Buka halaman BigQuery.

Buka BigQuery
Klik Compose a new query. Tab Editor baru akan terbuka.
```
SELECT * FROM `PROJECT_ID.taxirides.realtime`
WHERE `timestamp` > TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 1 DAY)
LIMIT 1000
```
Ganti PROJECT_ID dengan project ID project tempat Anda membuat set data BigQuery. Diperlukan waktu hingga satu menit sampai data mulai muncul di tabel Anda.
Klik Run.

Kueri menampilkan baris yang telah ditambahkan ke tabel dalam 24 jam terakhir. Anda juga dapat menjalankan kueri menggunakan SQL standar.

Pembersihan

Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

Menghapus project

Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project Google Cloud yang Anda buat untuk panduan memulai.

Perhatian: Menghapus project memiliki efek berikut:

Semua hal dalam project akan dihapus. Jika menggunakan project yang sudah ada untuk tugas dalam dokumen ini, saat Anda menghapusnya, pekerjaan lain yang telah Anda lakukan dalam project tersebut juga akan terhapus.
Project ID kustom hilang. Saat membuat project ini, Anda mungkin telah membuat project ID kustom yang ingin digunakan di masa mendatang. Untuk mempertahankan URL yang menggunakan project ID, seperti URL appspot.com, hapus resource yang dipilih di dalam project, bukan menghapus seluruh project.

Jika Anda berencana mempelajari berbagai arsitektur, tutorial, atau panduan memulai, menggunakan kembali project dapat membantu agar Anda tidak melampaui batas kuota project.

Di konsol Google Cloud, buka halaman Manage resource.
Buka Manage resource
Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Menghapus resource satu per satu

Jika Anda ingin mempertahankan project Google Cloud yang Anda gunakan di panduan memulai ini, hapus setiap resource-nya:

Buka halaman Jobs Dataflow.
Buka Tugas
Pilih tugas streaming Anda dari daftar tugas.
Pada navigasi, klik Hentikan.
Pada dialog Stop job, batalkan atau drain pipeline Anda, lalu klik Stop job.
Buka halaman BigQuery.
Buka BigQuery
Di panel Penjelajah, luaskan project Anda.
Di samping set data yang ingin Anda hapus, klik View actions, lalu klik Open.
Di panel detail, klik Delete dataset, lalu ikuti petunjuknya.

Di konsol Google Cloud, buka halaman Buckets Cloud Storage.
Buka Buckets
Klik kotak centang untuk bucket yang ingin Anda dihapus.
Untuk menghapus bucket, klik Hapus, lalu ikuti petunjuk.

Membuat pipeline streaming menggunakan template Dataflow

Sebelum memulai

Membuat set data dan tabel BigQuery

Menjalankan pipeline

Lihat hasil Anda

Pembersihan

Menghapus project

Menghapus resource satu per satu

Langkah selanjutnya