Halaman ini diterjemahkan oleh Cloud Translation API.

Membuat pipeline streaming menggunakan template Dataflow

Panduan memulai ini menunjukkan cara membuat pipeline streaming menggunakan template Dataflow yang disediakan Google. Secara khusus, panduan memulai ini menggunakan template Pub/Sub to BigQuery sebagai contoh.

Template Pub/Sub to BigQuery adalah pipeline streaming yang dapat membaca pesan berformat JSON dari topik Pub/Sub dan menulisnya ke tabel BigQuery.

Jika ingin mengikuti panduan langkah demi langkah untuk tugas ini langsung di Konsol Google Cloud, klik Pandu saya:

Pandu saya

Sebelum memulai

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, BigQuery, Pub/Sub, and Resource Manager APIs.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, BigQuery, Pub/Sub, and Resource Manager APIs.

Enable the APIs

Membuat bucket Cloud Storage:

In the Google Cloud console, go to the Cloud Storage Buckets page.
Go to Buckets page
Click Create bucket.
On the Create a bucket page, enter your bucket information. To go to the next step, click Continue.
- For Name your bucket, enter a unique bucket name. Don't include sensitive information in the bucket name, because the bucket namespace is global and publicly visible.
- For Choose where to store your data, do the following:
  - Select a Location type option.
  - Select a Location option.
- For Choose a default storage class for your data, select the following: Standard.
- For Choose how to control access to objects, select an Access control option.
- For Advanced settings (optional), specify an encryption method, a retention policy, or bucket labels.
Click Create.

Salin kode berikut, karena Anda memerlukannya di bagian selanjutnya:
- Nama bucket Cloud Storage Anda.
- ID Project Google Cloud Anda.
  
  Untuk menemukan ID ini, lihat Mengidentifikasi project.

Untuk menyelesaikan langkah-langkah dalam panduan memulai ini, akun pengguna Anda harus memiliki peran Admin Dataflow dan peran Pengguna Akun Layanan. Akun layanan default Compute Engine harus memiliki peran Dataflow Worker, peran Storage Object Admin, peran Pub/Sub Editor, peran BigQuery Data Editor, dan peran Viewer. Untuk menambahkan peran yang diperlukan di konsol Google Cloud:
1. Buka halaman IAM dan pilih project Anda.
  Buka IAM
2. Di baris yang berisi akun pengguna Anda, klik Edit akun utama. Klik Add another role, lalu tambahkan peran berikut: Dataflow Admin dan Service Account User.
3. Klik Simpan.
4. Pada baris yang berisi akun layanan default Compute Engine (PROJECT_NUMBER-compute@developer.gserviceaccount.com), klik Edit akun utama.
5. Klik Tambahkan peran lain, lalu tambahkan peran berikut: Pekerja Dataflow, Admin Objek Penyimpanan, Editor Pub/Sub, Editor Data BigQuery, Pelihat.
6. Klik Simpan.
  
  Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Memberikan peran IAM menggunakan konsol.
Secara default, setiap project baru dimulai dengan jaringan default. Jika jaringan default untuk project Anda dinonaktifkan atau dihapus, Anda harus memiliki jaringan di project yang akun penggunanya memiliki peran Compute Network User (roles/compute.networkUser).

Membuat set data dan tabel BigQuery

Buat set data dan tabel BigQuery dengan skema yang sesuai untuk topik Pub/Sub Anda menggunakan konsol Google Cloud.

Dalam contoh ini, nama set data adalah taxirides dan nama tabel adalah realtime. Untuk membuat set data dan tabel ini, ikuti langkah-langkah berikut:

Buka halaman BigQuery.
Buka BigQuery
Di panel Explorer, di samping project tempat Anda ingin membuat set data, klik View actions, lalu klik Create dataset.
Catatan: Pengalaman default adalah konsol Google Cloud Pratinjau. Jika Anda mengklik Sembunyikan fitur pratinjau untuk membuka konsol Google Cloud, lakukan langkah berikut: Di panel navigasi, di bagian Resource, pilih project Anda.
Di panel Create dataset, ikuti langkah-langkah berikut:

Untuk Dataset ID, masukkan taxirides. ID set data bersifat unik untuk setiap project Google Cloud.
Untuk Location type, pilih Multi-region, lalu pilih US (multiple regions in United States). Set data publik disimpan di lokasi multi-region US. Agar lebih mudah, tempatkan set data Anda di lokasi yang sama.
Tetap gunakan setelan default lainnya, lalu klik Create dataset

Di panel Explorer, luaskan project Anda.
Di samping set data taxirides, klik View actions, lalu klik Create table.
Catatan: Pengalaman default adalah konsol Google Cloud Pratinjau. Jika Anda mengklik Sembunyikan fitur pratinjau untuk membuka konsol Google Cloud, lakukan langkah berikut: Di panel navigasi, di bagian Resource, pilih set data taxirides yang Anda buat.
Di panel Create table, ikuti langkah-langkah berikut:

Di bagian Source, untuk Create table from, pilih Empty table.
Di bagian Destination, untuk Table, masukkan realtime.

Di bagian Schema, klik tombol Edit as text dan tempelkan definisi skema berikut ke dalam kotak:

ride_id:string,point_idx:integer,latitude:float,longitude:float,timestamp:timestamp,
meter_reading:float,meter_increment:float,ride_status:string,passenger_count:integer

Di bagian Partition and cluster settings, untuk Partitioning, pilih kolom timestamp.

Tetap gunakan setelan default lainnya, lalu klik Create table.

Menjalankan pipeline

Jalankan pipeline streaming menggunakan template Pub/Sub to BigQuery yang disediakan Google. Pipeline mendapatkan data masuk dari topik input.

Buka halaman Tugas Dataflow.
Buka Tugas
Klik Create job from template.
Masukkan taxi-data sebagai Nama tugas untuk tugas Dataflow Anda.
Untuk Dataflow template, pilih template Pub/Sub to BigQuery.
Untuk BigQuery output table, masukkan hal berikut:
```
PROJECT_ID:taxirides.realtime
```
Ganti PROJECT_ID dengan project ID project tempat Anda membuat set data BigQuery.
Di bagian Optional source parameters, untuk Input Pub/Sub topic, klik Enter topic manually.

Dalam dialog, untuk Topic name, masukkan hal berikut, lalu klik Save:

projects/pubsub-public-data/topics/taxirides-realtime

Topik Pub/Sub yang tersedia secara publik ini didasarkan pada set data terbuka NYC Taxi & Limousine Commission. Berikut adalah contoh pesan dari topik ini, dalam format JSON:

{
  "ride_id": "19c41fc4-e362-4be5-9d06-435a7dc9ba8e",
  "point_idx": 217,
  "latitude": 40.75399,
  "longitude": -73.96302,
  "timestamp": "2021-03-08T02:29:09.66644-05:00",
  "meter_reading": 6.293821,
  "meter_increment": 0.029003782,
  "ride_status": "enroute",
  "passenger_count": 1
}

Untuk Temp location, masukkan hal berikut:
```
gs://BUCKET_NAME/temp/
```
Ganti BUCKET_NAME dengan nama bucket Cloud Storage Anda. Folder temp menyimpan file sementara, seperti tugas pipeline yang di-staging.
Jika project Anda tidak memiliki jaringan default, masukkan Jaringan dan Subjaringan. Untuk mengetahui informasi selengkapnya, lihat Menentukan jaringan dan subnetwork.
Catatan: Kecuali jika ditentukan melalui opsi network, runner Dataflow akan menjalankan tugas di jaringan Virtual Private Cloud default. Jika project Anda tidak memiliki jaringan default dan Anda tidak menentukan jaringan, akan terjadi error. Anda mungkin tidak memiliki jaringan default jika jaringan default dihapus atau jika batasan kebijakan organisasi mencegah pembuatan jaringan default.
Klik Run job.

Melihat hasil

Untuk melihat data yang ditulis ke tabel realtime, ikuti langkah-langkah berikut:

Buka halaman BigQuery.

Buka BigQuery
Klik Compose a new query. Tab Editor baru akan terbuka.
```
SELECT * FROM `PROJECT_ID.taxirides.realtime`
WHERE `timestamp` > TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 1 DAY)
LIMIT 1000
```
Ganti PROJECT_ID dengan project ID project tempat Anda membuat set data BigQuery. Mungkin perlu waktu hingga lima menit agar data mulai muncul di tabel Anda.
Klik Run.

Kueri menampilkan baris yang telah ditambahkan ke tabel dalam 24 jam terakhir. Anda juga dapat menjalankan kueri menggunakan SQL standar.

Pembersihan

Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan di halaman ini, ikuti langkah-langkah berikut.

Menghapus project

Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project Google Cloud yang Anda buat untuk panduan memulai.

Perhatian: Menghapus project memiliki efek berikut:

Semua hal dalam project akan dihapus. Jika menggunakan project yang sudah ada untuk tugas dalam dokumen ini, saat Anda menghapusnya, pekerjaan lain yang telah Anda lakukan dalam project tersebut juga akan terhapus.
Project ID kustom hilang. Saat membuat project ini, Anda mungkin telah membuat project ID kustom yang ingin digunakan di masa mendatang. Untuk mempertahankan URL yang menggunakan project ID, seperti URL appspot.com, hapus resource yang dipilih di dalam project, bukan menghapus seluruh project.

Jika Anda berencana mempelajari beberapa arsitektur, tutorial atau panduan memulai, dengan menggunakan kembali project dapat membantu Anda agar tidak melampaui batas kuota project.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Menghapus resource satu per satu

Jika Anda ingin menyimpan project Google Cloud yang digunakan dalam panduan memulai ini, hapus setiap resource:

Buka halaman Tugas Dataflow.
Buka Tugas
Pilih tugas streaming Anda dari daftar tugas.
Di navigasi, klik Stop.
Di dialog Stop job, cancel atau drain pipeline Anda, lalu klik Stop job.
Buka halaman BigQuery.
Buka BigQuery
Di panel Explorer, luaskan project Anda.
Di samping set data yang ingin Anda hapus, klik Lihat tindakan, lalu klik Buka.
Di panel detail, klik Delete dataset, lalu ikuti petunjuknya.
In the Google Cloud console, go to the Cloud Storage Buckets page.
Go to Buckets
Click the checkbox for the bucket that you want to delete.
To delete the bucket, click Delete, and then follow the instructions.

Membuat pipeline streaming menggunakan template Dataflow

Sebelum memulai

Membuat set data dan tabel BigQuery

Menjalankan pipeline

Melihat hasil

Pembersihan

Menghapus project

Menghapus resource satu per satu

Langkah berikutnya