Halaman ini menjelaskan cara mengubah versi image Dataproc yang digunakan oleh instance Cloud Data Fusion Anda. Anda dapat mengubah image pada tingkat instance, namespace, atau pipeline.
Sebelum memulai
Hentikan semua pipeline real-time dan tugas replikasi di instance Cloud Data Fusion. Jika pipeline atau replikasi real-time berjalan saat Anda mengubah versi image Dataproc, perubahan tersebut tidak akan diterapkan pada eksekusi pipeline.
Untuk pipeline real-time, jika checkpoint diaktifkan, menghentikan pipeline tidak akan menyebabkan kehilangan data apa pun. Untuk tugas replikasi, selama log database tersedia, menghentikan dan memulai tugas replikasi tidak akan menyebabkan kehilangan data.
Konsol
Buka halaman Instance Cloud Data Fusion (di CDAP, klik View Instances), lalu buka instance tempat Anda perlu menghentikan pipeline.
Buka setiap pipeline real-time di Pipeline Studio, lalu klik Stop.
Buka setiap tugas replikasi di halaman Replicate lalu klik Stop.
REST API
Untuk mengambil semua pipeline, gunakan panggilan REST API berikut:
GET -H "Authorization: Bearer ${AUTH_TOKEN}" \ "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps"
Ganti
NAMESPACE_ID
dengan nama namespace Anda.Untuk menghentikan pipeline real-time, gunakan panggilan REST API berikut:
POST -H "Authorization: Bearer ${AUTH_TOKEN}" \ "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/PIPELINE_NAME/spark/DataStreamsSparkStreaming/stop"
Ganti NAMESPACE_ID dengan nama namespace Anda dan PIPELINE_NAME dengan nama pipeline real-time.
Untuk menghentikan tugas replikasi, gunakan panggilan REST API berikut:
POST -H "Authorization: Bearer ${AUTH_TOKEN}" \ "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/REPLICATION_JOB_NAME/workers/DeltaWorker/stop"
Ganti NAMESPACE_ID dengan nama Namespace Anda dan REPLICATION_JOB_NAME dengan nama tugas replikasi.
Untuk mengetahui informasi selengkapnya, lihat artikel menghentikan pipeline real-time dan menghentikan tugas replikasi.
Memeriksa dan mengganti versi default Dataproc di Cloud Data Fusion
Klik System Admin > Configuration > System Preferences.
Jika gambar Dataproc tidak ditentukan dalam System Preferences, atau untuk mengubah preferensi, klik Edit System Preferences.
Masukkan teks berikut di kolom Key:
system.profile.properties.imageVersion
Masukkan gambar Dataproc yang dipilih di kolom Nilai, seperti
2.1
.Klik Simpan & Tutup.
Perubahan ini memengaruhi seluruh instance Cloud Data Fusion, termasuk semua Namespace dan pipeline yang dijalankannya, kecuali jika properti versi gambar diganti di Namespace, pipeline, atau Argumen Runtime di instance Anda.
Mengubah versi gambar Dataproc
Versi image dapat ditetapkan di antarmuka web Cloud Data Fusion di Konfigurasi Compute, Preferensi Namespace, atau Argumen Runtime Pipeline.
Mengubah image di Preferensi Namespace
Jika Anda telah mengganti versi image di properti Namespace, ikuti langkah-langkah berikut:
Klik System Admin > Configuration > Namespaces.
Buka setiap namespace, lalu klik Preferensi.
Pastikan tidak ada penggantian dengan kunci
system.profile.properties.imageVersion
dengan nilai versi image yang salah.Klik Selesai.
Mengubah image di Profil Komputasi Sistem
Klik System Admin > Configuration.
Klik System Compute Profiles > Create New Profile.
Pilih penyedia Dataproc.
Buat profil untuk Dataproc. Di kolom Image Version, masukkan versi gambar Dataproc.
Pilih profil komputasi ini saat menjalankan pipeline di halaman Studio. Di halaman pipeline run, klik Configure > Compute config, lalu pilih profil ini.
Pilih profil Dataproc, lalu klik Save.
Klik Selesai.
Mengubah image di Argumen Runtime Pipeline
Jika Anda telah mengganti versi image dengan properti di Argumen Runtime pipeline, ikuti langkah-langkah berikut:
Klik > Daftar.
MenuDi halaman List, pilih pipeline yang ingin diperbarui.
Pipeline akan terbuka di halaman Studio.
Untuk meluaskan opsi Run, klik panah peluas
.Jendela Runtime Arguments akan terbuka.
Pastikan tidak ada penggantian dengan kunci
system.profile.properties.imageVersion
dengan versi image yang salah sebagai nilai.Klik Simpan.
Buat ulang cluster Dataproc statis yang digunakan oleh Cloud Data Fusion dengan versi gambar yang dipilih
Jika Anda menggunakan cluster Dataproc yang ada dengan Cloud Data Fusion, ikuti panduan Dataproc untuk membuat ulang cluster dengan versi gambar Dataproc yang dipilih untuk versi Cloud Data Fusion Anda.
Atau, Anda dapat membuat cluster Dataproc baru dengan versi image Dataproc yang dipilih, lalu menghapus serta membuat ulang profil komputasi di Cloud Data Fusion dengan nama profil komputasi yang sama dan nama cluster Dataproc yang telah diperbarui. Dengan cara ini, menjalankan pipeline batch dapat menyelesaikan eksekusi pada cluster yang ada dan operasi pipeline berikutnya berlangsung di cluster Dataproc yang baru. Anda dapat menghapus cluster Dataproc lama setelah mengonfirmasi bahwa semua operasi pipeline telah selesai.
Pastikan versi gambar Dataproc telah diupdate
Konsol
Di Konsol Google Cloud, buka halaman Cluster Dataproc.
Buka halaman Cluster details untuk cluster baru yang dibuat saat Anda menentukan versi baru.
Kolom Image version memiliki nilai baru yang Anda tentukan di Cloud Data Fusion.
REST API
Dapatkan daftar cluster beserta metadatanya:
GET -H "Authorization: Bearer ${AUTH_TOKEN}" \ https://dataproc.googleapis.com/v1/projects/PROJECT_ID/regions/REGION_ID/clusters
Ganti kode berikut:
PROJECT_ID
dengan nama namespace AndaREGION_ID
dengan nama region tempat cluster Anda berada
Telusuri nama pipeline Anda (nama cluster).
Di bagian objek JSON tersebut, lihat gambar di
config > softwareConfig > imageVersion
.
Ubah gambar Dataproc ke versi 2.1
Cloud Data Fusion versi 6.9.1 dan yang lebih baru mendukung Compute Engine image Dataproc 2.1, yang berjalan di Java 11. Pada versi 6.10.0 dan yang lebih baru, gambar 2.1 adalah default.
Jika Anda mengubah ke image 2.1, agar pipeline batch dan tugas replikasi berhasil, driver JDBC yang digunakan plugin database dalam instance tersebut harus kompatibel dengan Java 11.
Gambar Dataproc 2.1 memiliki batasan berikut di Cloud Data Fusion:
- Driver IBM Netezza dan DB2 11 JDBC tidak didukung.
- Gambar 2.1 tidak akan berfungsi dengan tugas pengurangan peta.
- Versi driver JDBC yang digunakan dalam plugin database pada instance Anda harus diupdate agar memiliki dukungan untuk Java 11. Lihat tabel berikut untuk versi driver yang berfungsi dengan Dataproc 2.1 dan Java 11:
Driver JDBC | Versi sebelumnya dihapus dari Cloud Data Fusion 6.9.1 | Versi yang didukung Java 8 dan Java 11 yang berfungsi dengan Dataproc 2.0 atau 2.1 |
---|---|---|
Driver JDBC Cloud SQL untuk MySQL | - | 1.0.16 |
Driver JDBC Cloud SQL untuk PostgreSQL | - | 1.0.16 |
Driver JDBC DB2 11 | - | - |
Driver JDBC Microsoft SQL Server | Driver Microsoft JDBC 6.0 | Driver JDBC Microsoft 9.4 |
Driver JDBC MySQL | 5.0.8, 5.1.39 | 8.0.25 |
Driver JDBC IBM Netezza | - | - |
Driver JDBC PostgreSQL | 9.4.1211.jre7, 9.4.1211.jre8 | 42.6.0.jre8 |
Driver JDBC Oracle | ojdbc7 | ojdbc8 (12c dan yang lebih baru) |
Penggunaan memori saat menggunakan Dataproc 2.1
Penggunaan memori mungkin meningkat untuk pipeline yang menggunakan cluster Dataproc 2.1. Jika Anda mengupgrade instance ke versi 6.10.0 atau yang lebih baru, dan
pipeline sebelumnya gagal karena masalah memori, naikkan memori driver dan
eksekutor menjadi 2048 MB pada konfigurasi Resources
untuk
pipeline.
Atau, Anda dapat mengganti versi Dataproc dengan menetapkan argumen runtime system.profile.properties.imageVersion
ke 2.0-debian10
.