Membuat pipeline data

Panduan memulai ini menunjukkan cara melakukan hal berikut:

  1. Buat instance Cloud Data Fusion.
  2. Deploy pipeline contoh yang disediakan dengan instance Cloud Data Fusion Anda. Pipeline ini melakukan hal berikut:
    1. Membaca file JSON yang berisi data buku terlaris NYT dari Cloud Storage.
    2. Menjalankan transformasi pada file untuk mengurai dan membersihkan data.
    3. Memuat buku dengan rating teratas yang ditambahkan dalam seminggu terakhir dengan harga kurang dari $25 ke BigQuery.

Sebelum memulai

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Enable the Cloud Data Fusion API.

    Enable the API

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Enable the Cloud Data Fusion API.

    Enable the API

Membuat instance Cloud Data Fusion

  1. Klik Create an instance.

    Buka Instance

  2. Masukkan Nama instance.
  3. Masukkan Deskripsi untuk instance Anda.
  4. Masukkan Region tempat instance akan dibuat.
  5. Pilih Versi Cloud Data Fusion yang akan digunakan.
  6. Pilih Edisi Cloud Data Fusion.
  7. Untuk Cloud Data Fusion versi 6.2.3 dan yang lebih baru, di kolom Authorization, pilih Akun layanan Dataproc yang akan digunakan untuk menjalankan pipeline Cloud Data Fusion di Dataproc. Nilai default, akun Compute Engine, telah dipilih sebelumnya.
  8. Klik Create. Perlu waktu hingga 30 menit untuk menyelesaikan proses pembuatan instance. Saat Cloud Data Fusion membuat instance, roda progres akan ditampilkan di samping nama instance di halaman Instance. Setelah selesai, status akan berubah menjadi tanda centang hijau dan menunjukkan bahwa Anda dapat mulai menggunakan instance.

Saat menggunakan Cloud Data Fusion, Anda menggunakan konsol Google Cloud dan antarmuka web Cloud Data Fusion terpisah.

  • Di konsol Google Cloud, Anda dapat melakukan hal berikut:

    • Membuat project konsol Google Cloud
    • Membuat dan menghapus instance Cloud Data Fusion
    • Melihat detail instance Cloud Data Fusion
  • Di antarmuka web Cloud Data Fusion, Anda dapat menggunakan berbagai halaman, seperti Studio atau Wrangler, untuk menggunakan fungsi Cloud Data Fusion.

Untuk menavigasi antarmuka Cloud Data Fusion, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud, buka halaman Instance.

    Buka Instance

  2. Di kolom Actions instance, klik link View Instance.
  3. Di antarmuka web Cloud Data Fusion, gunakan panel navigasi kiri untuk membuka halaman yang Anda perlukan.

Men-deploy pipeline contoh

Contoh pipeline tersedia melalui Hub Cloud Data Fusion, yang memungkinkan Anda membagikan pipeline, plugin, dan solusi Cloud Data Fusion yang dapat digunakan kembali.

  1. Di antarmuka web Cloud Data Fusion, klik Hub.
  2. Di panel kiri, klik Pipelines.
  3. Klik pipeline Panduan Memulai Cloud Data Fusion.
  4. Klik Create.
  5. Di panel konfigurasi Mulai Cepat Cloud Data Fusion, klik Finish.
  6. Klik Sesuaikan Pipeline.

    Representasi visual pipeline Anda akan muncul di halaman Studio, yang merupakan antarmuka grafis untuk mengembangkan pipeline integrasi data. Plugin pipeline yang tersedia tercantum di sebelah kiri, dan pipeline Anda ditampilkan di area kanvas utama. Anda dapat menjelajahi pipeline dengan menahan kursor di setiap node pipeline dan mengklik Properties. Menu properti untuk setiap node memungkinkan Anda melihat objek dan operasi yang terkait dengan node.

  7. Di menu kanan atas, klik Deploy. Langkah ini mengirimkan pipeline ke Cloud Data Fusion. Anda akan menjalankan pipeline di bagian berikutnya dari panduan memulai ini.

Men-deploy pipeline

Melihat pipeline Anda

Pipeline yang di-deploy akan muncul di tampilan detail pipeline, tempat Anda dapat melakukan hal berikut:

  • Lihat struktur dan konfigurasi pipeline.
  • Jalankan pipeline secara manual atau siapkan jadwal atau pemicu.
  • Lihat ringkasan historis pengoperasian pipeline, termasuk waktu eksekusi, log, dan metrik.

Menyalin akun layanan

Menjalankan pipeline

Di tampilan detail pipeline, klik Run untuk menjalankan pipeline.

Menjalankan pipeline

Saat menjalankan pipeline, Cloud Data Fusion melakukan hal berikut:

  1. Menyediakan cluster Dataproc efemeral
  2. Menjalankan pipeline di cluster menggunakan Apache Spark
  3. Menghapus cluster

Melihat hasil

Setelah beberapa menit, pipeline akan selesai. Status pipeline berubah menjadi Berhasil dan jumlah data yang diproses oleh setiap node ditampilkan.

Operasi pipeline selesai

  1. Buka antarmuka web BigQuery.
  2. Untuk melihat contoh hasilnya, buka set data DataFusionQuickstart di project Anda, klik tabel top_rated_inexpensive, lalu jalankan kueri sederhana. Contoh:

    SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
    

    Ganti PROJECT_ID dengan project ID Anda.

Lihat hasil

Pembersihan

Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

  1. Hapus set data BigQuery yang ditulis oleh pipeline Anda dalam panduan memulai ini.
  2. Hapus instance Cloud Data Fusion.

  3. Opsional: Menghapus project.

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Langkah selanjutnya

  • Pelajari tutorial Cloud Data Fusion
  • Pelajari konsep Cloud Data Fusion