Mengubah versi image Dataproc di Cloud Data Fusion

Halaman ini menjelaskan cara mengubah versi image Dataproc yang digunakan oleh instance Cloud Data Fusion Anda. Anda dapat mengubah gambar di tingkat instance, namespace, atau pipeline.

Sebelum memulai

Hentikan semua pipeline real-time dan tugas replikasi di instance Cloud Data Fusion. Jika pipeline atau replikasi real-time sedang berjalan saat Anda mengubah versi image Dataproc, perubahan tidak akan diterapkan pada eksekusi pipeline.

Untuk pipeline real-time, jika pembuatan titik pemeriksaan diaktifkan, penghentian pipeline tidak akan menyebabkan kehilangan data. Untuk tugas replikasi, selama log database tersedia, menghentikan dan memulai tugas replikasi tidak akan menyebabkan kehilangan data.

Konsol

  1. Buka halaman Instances Cloud Data Fusion dan buka instance tempat Anda perlu menghentikan pipeline.

    Buka Instance

  2. Buka setiap pipeline real-time di Pipeline Studio, lalu klik Stop.

  3. Buka setiap tugas replikasi di halaman Replikasi, lalu klik Hentikan.

REST API

  • Untuk mengambil semua pipeline, gunakan panggilan REST API berikut:

    GET -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps"
    

    Ganti NAMESPACE_ID dengan nama namespace Anda.

  • Untuk menghentikan pipeline real-time, gunakan panggilan REST API berikut:

    POST -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/PIPELINE_NAME/spark/DataStreamsSparkStreaming/stop"
    

    Ganti NAMESPACE_ID dengan nama namespace Anda dan PIPELINE_NAME dengan nama pipeline real-time.

  • Untuk menghentikan tugas replikasi, gunakan panggilan REST API berikut:

    POST -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/REPLICATION_JOB_NAME/workers/DeltaWorker/stop"
    

    Ganti NAMESPACE_ID dengan nama Namespace Anda dan REPLICATION_JOB_NAME dengan nama tugas replikasi.

    Untuk mengetahui informasi selengkapnya, lihat menghentikan pipeline real-time dan menghentikan tugas replikasi.

Memeriksa dan mengganti versi default Dataproc di Cloud Data Fusion

  1. Buka antarmuka web Cloud Data Fusion.

  2. Klik Admin Sistem > Konfigurasi > Preferensi Sistem.

    Klik edit preferensi sistem

  3. Jika image Dataproc tidak ditentukan di Preferensi Sistem, atau untuk mengubah preferensi, klik Edit Preferensi Sistem.

    1. Masukkan teks berikut di kolom Key:

      system.profile.properties.imageVersion

    2. Masukkan image Dataproc yang dipilih di kolom Nilai, seperti 2.1.

    3. Klik Simpan & Tutup.

Menetapkan preferensi untuk sistem

Perubahan ini memengaruhi seluruh instance Cloud Data Fusion, termasuk semua Namespace dan eksekusi pipeline-nya, kecuali jika properti versi image diganti di Namespace, pipeline, atau Argumen Runtime di instance Anda.

Mengubah versi image Dataproc

Versi image dapat ditetapkan di antarmuka web Cloud Data Fusion di Konfigurasi Compute, Preferensi Namespace, atau Argumen Runtime Pipeline.

Mengubah gambar di Preferensi Namespace

Jika Anda telah mengganti versi gambar di properti Namespace, ikuti langkah-langkah berikut:

  1. Buka antarmuka web Cloud Data Fusion.

  2. Klik Admin Sistem > Konfigurasi > Namespace.

  3. Buka setiap namespace, lalu klik Preferences.

    1. Pastikan tidak ada penggantian dengan kunci system.profile.properties.imageVersion dengan nilai versi gambar yang salah.

    2. Klik Selesai.

Mengubah gambar di Profil Komputasi Sistem

  1. Buka antarmuka web Cloud Data Fusion.

  2. Klik Admin Sistem > Konfigurasi.

  3. Klik System Compute Profiles > Create New Profile.

  4. Pilih penyedia Dataproc.

    Pilih penyedia Dataproc

  5. Buat profil untuk Dataproc. Di kolom Image Version, masukkan versi image Dataproc.

    Masukkan versi gambar

  6. Pilih profil komputasi ini saat menjalankan pipeline di halaman Studio. Di halaman eksekusi pipeline, klik Konfigurasi > Konfigurasi komputasi, lalu pilih profil ini.

  7. Pilih profil Dataproc, lalu klik Simpan.

  8. Klik Selesai.

Mengubah gambar di Argumen Runtime Pipeline

Jika Anda telah mengganti versi gambar dengan properti di Argumen Runtime pipeline, ikuti langkah-langkah berikut:

  1. Buka antarmuka web Cloud Data Fusion.

  2. Klik menu Menu > Daftar.

  3. Di halaman List, pilih pipeline yang ingin Anda perbarui.

    Pipeline akan terbuka di halaman Studio.

  4. Untuk meluaskan opsi Jalankan, klik panah peluas .

    Jendela Runtime Arguments akan terbuka.

  5. Periksa apakah tidak ada penggantian dengan kunci system.profile.properties.imageVersion dengan versi gambar yang salah sebagai nilainya.

  6. Klik Simpan.

    Menetapkan Argumen Runtime pipeline

Buat ulang cluster Dataproc statis yang digunakan oleh Cloud Data Fusion dengan versi image yang dipilih

Jika Anda menggunakan cluster Dataproc yang ada dengan Cloud Data Fusion, ikuti panduan Dataproc untuk membuat ulang cluster dengan versi image Dataproc yang dipilih untuk versi Cloud Data Fusion Anda.

Atau, Anda dapat membuat cluster Dataproc baru dengan versi image Dataproc yang dipilih, lalu menghapus dan membuat ulang profil komputasi di Cloud Data Fusion dengan nama profil komputasi yang sama dan nama cluster Dataproc yang diupdate. Dengan begitu, menjalankan pipeline batch dapat menyelesaikan eksekusi di cluster yang ada dan eksekusi pipeline berikutnya dilakukan di cluster Dataproc baru. Anda dapat menghapus cluster Dataproc lama setelah mengonfirmasi bahwa semua eksekusi pipeline telah selesai.

Memeriksa apakah versi image Dataproc sudah diupdate

Konsol

  1. Di konsol Google Cloud , buka halaman Cluster Dataproc.

    Buka Cluster

  2. Buka halaman Cluster details untuk cluster baru yang dibuat Cloud Data Fusion saat Anda menentukan versi baru.

    Kolom Versi gambar memiliki nilai baru yang Anda tentukan di Cloud Data Fusion.

REST API

  1. Dapatkan daftar cluster dengan metadatanya:

    GET -H "Authorization: Bearer ${AUTH_TOKEN}" \
    https://dataproc.googleapis.com/v1/projects/PROJECT_ID/regions/REGION_ID/clusters
    

    Ganti kode berikut:

    • PROJECT_ID dengan nama namespace Anda
    • REGION_ID dengan nama region tempat cluster Anda berada
  2. Telusuri nama pipeline Anda (nama cluster).

  3. Di bawah objek JSON tersebut, lihat gambar di config > softwareConfig > imageVersion.

Ubah image Dataproc ke versi 2.1 atau yang lebih baru

Cloud Data Fusion versi 6.9.1 dan yang lebih baru mendukung Compute Engine image 2.1 Dataproc, yang berjalan di Java 11. Pada versi 6.10.0 dan yang lebih baru, image 2.1 adalah default.

Jika Anda beralih ke image 2.1 atau yang lebih baru dari image sebelumnya, agar pipeline batch dan tugas replikasi berhasil, driver JDBC yang digunakan plugin database dalam instance tersebut harus kompatibel dengan Java 11.

Image Dataproc 2.2 dan 2.1 memiliki batasan berikut di Cloud Data Fusion:

  • Tugas map reduce tidak didukung.
  • Versi driver JDBC yang digunakan dalam plugin database di instance Anda harus diupdate agar memiliki dukungan untuk Java 11. Lihat tabel berikut untuk mengetahui versi driver yang kompatibel dengan Dataproc 2.2, 2.1, dan Java 11:
Driver JDBC Versi sebelumnya dihapus dari Cloud Data Fusion 6.9.1 Versi yang didukung Java 8 dan Java 11 yang kompatibel dengan Dataproc 2.2, 2.1, atau 2.0
Driver JDBC Cloud SQL untuk MySQL - 1.0.16
Driver JDBC Cloud SQL untuk PostgreSQL - 1.0.16
Driver JDBC Microsoft SQL Server Driver Microsoft JDBC 6.0 Driver Microsoft JDBC 9.4
Driver JDBC MySQL 5.0.8, 5.1.39 8.0.25
Driver JDBC PostgreSQL 9.4.1211.jre7, 9.4.1211.jre8 42.6.0.jre8
Driver JDBC Oracle ojdbc7 ojdbc8 (12c dan yang lebih baru)

Penggunaan memori saat menggunakan Dataproc 2.1 atau yang lebih baru

Penggunaan memori dapat meningkat untuk pipeline yang menggunakan Dataproc 2.1 atau yang lebih baru. Jika Anda mengupgrade instance ke versi 6.10 atau yang lebih baru, dan pipeline sebelumnya gagal karena masalah memori, tingkatkan memori driver dan eksekutor menjadi 2048 MB dalam konfigurasi Resources untuk pipeline.

Tingkatkan memori driver dan executor

Atau, Anda dapat mengganti versi Dataproc dengan menyetel argumen runtime system.profile.properties.imageVersion ke 2.0-debian10.