Mengubah versi gambar Dataproc di Cloud Data Fusion

Halaman ini menjelaskan cara mengubah versi image Dataproc yang digunakan oleh instance Cloud Data Fusion Anda. Anda dapat mengubah image pada tingkat instance, namespace, atau pipeline.

Sebelum memulai

Hentikan semua pipeline real-time dan tugas replikasi di instance Cloud Data Fusion. Jika pipeline atau replikasi real-time berjalan saat Anda mengubah versi image Dataproc, perubahan tersebut tidak akan diterapkan pada eksekusi pipeline.

Untuk pipeline real-time, jika checkpoint diaktifkan, menghentikan pipeline tidak akan menyebabkan kehilangan data apa pun. Untuk tugas replikasi, selama log database tersedia, menghentikan dan memulai tugas replikasi tidak akan menyebabkan kehilangan data.

Konsol

  1. Buka halaman Instance Cloud Data Fusion (di CDAP, klik View Instances), lalu buka instance tempat Anda perlu menghentikan pipeline.

    Buka Instance

  2. Buka setiap pipeline real-time di Pipeline Studio, lalu klik Stop.

  3. Buka setiap tugas replikasi di halaman Replicate lalu klik Stop.

REST API

  • Untuk mengambil semua pipeline, gunakan panggilan REST API berikut:

    GET -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps"
    

    Ganti NAMESPACE_ID dengan nama namespace Anda.

  • Untuk menghentikan pipeline real-time, gunakan panggilan REST API berikut:

    POST -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/PIPELINE_NAME/spark/DataStreamsSparkStreaming/stop"
    

    Ganti NAMESPACE_ID dengan nama namespace Anda dan PIPELINE_NAME dengan nama pipeline real-time.

  • Untuk menghentikan tugas replikasi, gunakan panggilan REST API berikut:

    POST -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/REPLICATION_JOB_NAME/workers/DeltaWorker/stop"
    

    Ganti NAMESPACE_ID dengan nama Namespace Anda dan REPLICATION_JOB_NAME dengan nama tugas replikasi.

    Untuk mengetahui informasi selengkapnya, lihat artikel menghentikan pipeline real-time dan menghentikan tugas replikasi.

Memeriksa dan mengganti versi default Dataproc di Cloud Data Fusion

  1. Buka antarmuka web Cloud Data Fusion.

  2. Klik System Admin > Configuration > System Preferences.

    Edit preferensi sistem

  3. Jika gambar Dataproc tidak ditentukan dalam System Preferences, atau untuk mengubah preferensi, klik Edit System Preferences.

    1. Masukkan teks berikut di kolom Key:

      system.profile.properties.imageVersion

    2. Masukkan gambar Dataproc yang dipilih di kolom Nilai, seperti 2.1.

    3. Klik Simpan & Tutup.

Setel preferensi untuk sistem

Perubahan ini memengaruhi seluruh instance Cloud Data Fusion, termasuk semua Namespace dan pipeline yang dijalankannya, kecuali jika properti versi gambar diganti di Namespace, pipeline, atau Argumen Runtime di instance Anda.

Mengubah versi gambar Dataproc

Versi image dapat ditetapkan di antarmuka web Cloud Data Fusion di Konfigurasi Compute, Preferensi Namespace, atau Argumen Runtime Pipeline.

Mengubah image di Preferensi Namespace

Jika Anda telah mengganti versi image di properti Namespace, ikuti langkah-langkah berikut:

  1. Buka antarmuka web Cloud Data Fusion.

  2. Klik System Admin > Configuration > Namespaces.

  3. Buka setiap namespace, lalu klik Preferensi.

    1. Pastikan tidak ada penggantian dengan kunci system.profile.properties.imageVersion dengan nilai versi image yang salah.

    2. Klik Selesai.

Mengubah image di Profil Komputasi Sistem

  1. Buka antarmuka web Cloud Data Fusion.

  2. Klik System Admin > Configuration.

  3. Klik System Compute Profiles > Create New Profile.

  4. Pilih penyedia Dataproc.

    Pilih penyedia

  5. Buat profil untuk Dataproc. Di kolom Image Version, masukkan versi gambar Dataproc.

    Kolom versi image

  6. Pilih profil komputasi ini saat menjalankan pipeline di halaman Studio. Di halaman pipeline run, klik Configure > Compute config, lalu pilih profil ini.

  7. Pilih profil Dataproc, lalu klik Save.

  8. Klik Selesai.

Mengubah image di Argumen Runtime Pipeline

Jika Anda telah mengganti versi image dengan properti di Argumen Runtime pipeline, ikuti langkah-langkah berikut:

  1. Buka antarmuka web Cloud Data Fusion.

  2. Klik Menu > Daftar.

  3. Di halaman List, pilih pipeline yang ingin diperbarui.

    Pipeline akan terbuka di halaman Studio.

  4. Untuk meluaskan opsi Run, klik panah peluas .

    Jendela Runtime Arguments akan terbuka.

  5. Pastikan tidak ada penggantian dengan kunci system.profile.properties.imageVersion dengan versi image yang salah sebagai nilai.

  6. Klik Simpan.

    Menetapkan Argumen Runtime pipeline

Buat ulang cluster Dataproc statis yang digunakan oleh Cloud Data Fusion dengan versi gambar yang dipilih

Jika Anda menggunakan cluster Dataproc yang ada dengan Cloud Data Fusion, ikuti panduan Dataproc untuk membuat ulang cluster dengan versi gambar Dataproc yang dipilih untuk versi Cloud Data Fusion Anda.

Atau, Anda dapat membuat cluster Dataproc baru dengan versi image Dataproc yang dipilih, lalu menghapus serta membuat ulang profil komputasi di Cloud Data Fusion dengan nama profil komputasi yang sama dan nama cluster Dataproc yang telah diperbarui. Dengan cara ini, menjalankan pipeline batch dapat menyelesaikan eksekusi pada cluster yang ada dan operasi pipeline berikutnya berlangsung di cluster Dataproc yang baru. Anda dapat menghapus cluster Dataproc lama setelah mengonfirmasi bahwa semua operasi pipeline telah selesai.

Pastikan versi gambar Dataproc telah diupdate

Konsol

  1. Di Konsol Google Cloud, buka halaman Cluster Dataproc.

    Buka Cluster

  2. Buka halaman Cluster details untuk cluster baru yang dibuat saat Anda menentukan versi baru.

    Kolom Image version memiliki nilai baru yang Anda tentukan di Cloud Data Fusion.

REST API

  1. Dapatkan daftar cluster beserta metadatanya:

    GET -H "Authorization: Bearer ${AUTH_TOKEN}" \
    https://dataproc.googleapis.com/v1/projects/PROJECT_ID/regions/REGION_ID/clusters
    

    Ganti kode berikut:

    • PROJECT_ID dengan nama namespace Anda
    • REGION_ID dengan nama region tempat cluster Anda berada
  2. Telusuri nama pipeline Anda (nama cluster).

  3. Di bagian objek JSON tersebut, lihat gambar di config > softwareConfig > imageVersion.

Ubah gambar Dataproc ke versi 2.1

Cloud Data Fusion versi 6.9.1 dan yang lebih baru mendukung Compute Engine image Dataproc 2.1, yang berjalan di Java 11. Pada versi 6.10.0 dan yang lebih baru, gambar 2.1 adalah default.

Jika Anda mengubah ke image 2.1, agar pipeline batch dan tugas replikasi berhasil, driver JDBC yang digunakan plugin database dalam instance tersebut harus kompatibel dengan Java 11.

Gambar Dataproc 2.1 memiliki batasan berikut di Cloud Data Fusion:

  • Driver IBM Netezza dan DB2 11 JDBC tidak didukung.
  • Gambar 2.1 tidak akan berfungsi dengan tugas pengurangan peta.
  • Versi driver JDBC yang digunakan dalam plugin database pada instance Anda harus diupdate agar memiliki dukungan untuk Java 11. Lihat tabel berikut untuk versi driver yang berfungsi dengan Dataproc 2.1 dan Java 11:
Driver JDBC Versi sebelumnya dihapus dari Cloud Data Fusion 6.9.1 Versi yang didukung Java 8 dan Java 11 yang berfungsi dengan Dataproc 2.0 atau 2.1
Driver JDBC Cloud SQL untuk MySQL - 1.0.16
Driver JDBC Cloud SQL untuk PostgreSQL - 1.0.16
Driver JDBC DB2 11 - -
Driver JDBC Microsoft SQL Server Driver Microsoft JDBC 6.0 Driver JDBC Microsoft 9.4
Driver JDBC MySQL 5.0.8, 5.1.39 8.0.25
Driver JDBC IBM Netezza - -
Driver JDBC PostgreSQL 9.4.1211.jre7, 9.4.1211.jre8 42.6.0.jre8
Driver JDBC Oracle ojdbc7 ojdbc8 (12c dan yang lebih baru)

Penggunaan memori saat menggunakan Dataproc 2.1

Penggunaan memori mungkin meningkat untuk pipeline yang menggunakan cluster Dataproc 2.1. Jika Anda mengupgrade instance ke versi 6.10.0 atau yang lebih baru, dan pipeline sebelumnya gagal karena masalah memori, naikkan memori driver dan eksekutor menjadi 2048 MB pada konfigurasi Resources untuk pipeline. Mengonfigurasi Resource.

Atau, Anda dapat mengganti versi Dataproc dengan menetapkan argumen runtime system.profile.properties.imageVersion ke 2.0-debian10.