Membuat pipeline data
Panduan memulai ini menunjukkan cara melakukan hal-hal berikut:
- Membuat instance Cloud Data Fusion.
- Deploy contoh pipeline yang disediakan dengan instance Cloud Data Fusion Anda. Pipeline melakukan hal berikut:
- Membaca file JSON yang berisi data terlaris NYT dari Cloud Storage.
- Menjalankan transformasi pada file untuk mengurai dan membersihkan data.
- Memuat buku dengan rating teratas yang ditambahkan pada minggu lalu dengan harga kurang dari $25 di BigQuery.
Sebelum memulai
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Aktifkan API Cloud Data Fusion.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Aktifkan API Cloud Data Fusion.
Membuat instance Cloud Data Fusion
- Klik Create an instance.
- Masukkan Nama instance.
- Masukkan Deskripsi untuk instance Anda.
- Masukkan Region untuk membuat instance.
- Pilih Versi Cloud Data Fusion yang akan digunakan.
- Pilih Edisi Cloud Data Fusion.
- Untuk Cloud Data Fusion versi 6.2.3 dan yang lebih baru, di kolom Authorization, pilih akun layanan Dataproc yang akan digunakan untuk menjalankan pipeline Cloud Data Fusion di Dataproc. Nilai default, akun Compute Engine, sudah dipilih sebelumnya.
- Klik Create. Perlu waktu hingga 30 menit untuk menyelesaikan proses pembuatan instance. Saat Cloud Data Fusion membuat instance Anda, roda progres akan ditampilkan di samping nama instance pada halaman Instance. Setelah selesai, instance akan berubah menjadi tanda centang hijau dan menunjukkan bahwa Anda dapat mulai menggunakan instance tersebut.
Menjelajahi antarmuka web Cloud Data Fusion
Saat menggunakan Cloud Data Fusion, Anda menggunakan Konsol Google Cloud dan antarmuka web Cloud Data Fusion yang terpisah.
Di konsol Google Cloud, Anda dapat melakukan hal berikut:
- Membuat project konsol Google Cloud
- Membuat dan menghapus instance Cloud Data Fusion
- Melihat detail instance Cloud Data Fusion
Dalam antarmuka web Cloud Data Fusion, Anda dapat menggunakan berbagai halaman, seperti Studio atau Wrangler, untuk menggunakan fungsi Cloud Data Fusion.
Untuk membuka antarmuka Cloud Data Fusion, ikuti langkah-langkah berikut:
- Di konsol Google Cloud, buka halaman Instances.
- Di kolom Tindakan instance, klik link Lihat Instance.
- Di antarmuka web Cloud Data Fusion, gunakan panel navigasi sebelah kiri untuk membuka halaman yang Anda butuhkan.
Men-deploy contoh pipeline
Contoh pipeline tersedia melalui Hub Cloud Data Fusion, yang memungkinkan Anda berbagi pipeline, plugin, dan solusi Cloud Data Fusion yang dapat digunakan kembali.
- Pada antarmuka web Cloud Data Fusion, klik Hub.
- Di panel kiri, klik Pipelines.
- Klik pipeline Panduan Memulai Cloud Data Fusion.
- Klik Create.
- Di panel konfigurasi Panduan Memulai Cloud Data Fusion, klik Selesai.
Klik Customize Pipeline.
Representasi visual pipeline Anda ditampilkan di halaman Studio, yang merupakan antarmuka grafis untuk mengembangkan pipeline integrasi data. Plugin pipeline yang tersedia tercantum di sebelah kiri, dan pipeline Anda ditampilkan di area kanvas utama. Anda dapat mempelajari pipeline dengan mengarahkan kursor ke setiap node pipeline dan mengklik Properties. Menu properti untuk setiap node memungkinkan Anda melihat objek dan operasi yang terkait dengan node.
Di menu kanan atas, klik Deploy. Langkah ini akan mengirimkan pipeline ke Cloud Data Fusion. Anda akan menjalankan pipeline di bagian berikutnya dalam panduan memulai ini.
Melihat pipeline Anda
Pipeline yang di-deploy akan muncul di tampilan detail pipeline, tempat Anda dapat melakukan hal berikut:
- Melihat struktur dan konfigurasi pipeline.
- Jalankan pipeline secara manual atau siapkan jadwal atau pemicu.
- Melihat ringkasan histori operasi pipeline, termasuk waktu eksekusi, log, dan metrik.
Menjalankan pipeline Anda
Di tampilan detail pipeline, klik Jalankan untuk menjalankan pipeline Anda.
Saat menjalankan pipeline, Cloud Data Fusion melakukan hal berikut:
- Menyediakan cluster Dataproc efemeral
- Menjalankan pipeline pada cluster menggunakan Apache Spark
- Menghapus cluster
Melihat hasil
Setelah beberapa menit, pipeline selesai. Status pipeline akan berubah menjadi Succeeded dan jumlah data yang diproses oleh setiap node akan ditampilkan.
- Buka antarmuka web BigQuery.
Untuk melihat contoh hasil, buka set data
DataFusionQuickstart
di project Anda, klik tabeltop_rated_inexpensive
, lalu jalankan kueri sederhana. Contoh:SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
Ganti PROJECT_ID dengan project ID Anda.
Pembersihan
Agar akun Google Cloud Anda tidak dikenakan biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
- Hapus set data BigQuery yang ditulis oleh pipeline Anda di panduan memulai ini.
Opsional: Hapus project.
- Di konsol Google Cloud, buka halaman Manage resource.
- Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
- Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.