Halaman ini menjelaskan cara mengubah versi image Dataproc yang digunakan oleh instance Cloud Data Fusion Anda. Anda dapat mengubah gambar di tingkat instance, namespace, atau pipeline.
Sebelum memulai
Hentikan semua pipeline dan tugas replikasi real-time di instance Cloud Data Fusion. Jika pipeline atau replikasi real-time berjalan saat Anda mengubah versi image Dataproc, perubahan tersebut tidak akan diterapkan ke eksekusi pipeline.
Untuk pipeline real-time, jika pembuatan checkpoint diaktifkan, menghentikan pipeline tidak akan menyebabkan kehilangan data. Untuk tugas replikasi, selama log database tersedia, menghentikan dan memulai tugas replikasi tidak akan menyebabkan hilangnya data.
Konsol
Buka halaman Instance Cloud Data Fusion dan buka instance tempat Anda perlu menghentikan pipeline.
Buka setiap pipeline real-time di Pipeline Studio, lalu klik Stop.
Buka setiap tugas replikasi di halaman Replicate, lalu klik Stop.
REST API
Untuk mengambil semua pipeline, gunakan panggilan REST API berikut:
GET -H "Authorization: Bearer ${AUTH_TOKEN}" \ "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps"
Ganti
NAMESPACE_ID
dengan nama namespace Anda.Untuk menghentikan pipeline real-time, gunakan panggilan REST API berikut:
POST -H "Authorization: Bearer ${AUTH_TOKEN}" \ "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/PIPELINE_NAME/spark/DataStreamsSparkStreaming/stop"
Ganti NAMESPACE_ID dengan nama namespace Anda dan PIPELINE_NAME dengan nama pipeline real-time.
Untuk menghentikan tugas replikasi, gunakan panggilan REST API berikut:
POST -H "Authorization: Bearer ${AUTH_TOKEN}" \ "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/REPLICATION_JOB_NAME/workers/DeltaWorker/stop"
Ganti NAMESPACE_ID dengan nama Namespace dan REPLICATION_JOB_NAME dengan nama tugas replikasi.
Untuk informasi selengkapnya, lihat menghentikan pipeline real-time dan menghentikan tugas replikasi.
Memeriksa dan mengganti versi default Dataproc di Cloud Data Fusion
Klik System Admin > Configuration > System Preferences.
Jika image Dataproc tidak ditentukan di Preferensi Sistem, atau untuk mengubah preferensi, klik Edit System Preferences.
Masukkan teks berikut di kolom Key:
system.profile.properties.imageVersion
Masukkan image Dataproc yang dipilih di kolom Nilai, seperti
2.1
.Klik Simpan & Tutup.
Perubahan ini memengaruhi seluruh instance Cloud Data Fusion, termasuk semua Namespace dan pipeline yang berjalan, kecuali jika properti versi image diganti di Namespace, pipeline, atau Argumen Runtime di instance Anda.
Mengubah versi image Dataproc
Versi image dapat ditetapkan di antarmuka web Cloud Data Fusion di Konfigurasi Komputasi, Preferensi Namespace, atau Argumen Runtime Pipeline.
Mengubah gambar di Preferensi Namespace
Jika Anda telah mengganti versi gambar di properti Namespace, ikuti langkah-langkah berikut:
Klik System Admin > Configuration > Namespaces.
Buka setiap namespace, lalu klik Preferensi.
Pastikan tidak ada penggantian dengan kunci
system.profile.properties.imageVersion
dengan nilai versi gambar yang salah.Klik Selesai.
Mengubah gambar di Profil Komputasi Sistem
Klik System Admin > Configuration.
Klik Sistem Profil Komputasi > Buat Profil Baru.
Pilih penyedia Dataproc.
Buat profil untuk Dataproc. Di kolom Image Version, masukkan versi image Dataproc.
Pilih profil komputasi ini saat menjalankan pipeline di halaman Studio. Di halaman pengoperasian pipeline, klik Konfigurasi > Konfigurasi compute, lalu pilih profil ini.
Pilih profil Dataproc, lalu klik Simpan.
Klik Selesai.
Mengubah gambar di Argumen Runtime Pipeline
Jika Anda telah mengganti versi gambar dengan properti di Argumen Runtime pipeline, ikuti langkah-langkah berikut:
Klik menu Menu > Daftar.
Di halaman Daftar, pilih pipeline yang ingin Anda perbarui.
Pipeline akan terbuka di halaman Studio.
Untuk meluaskan opsi Run, klik panah peluas
.Jendela Runtime Arguments akan terbuka.
Pastikan tidak ada penggantian dengan kunci
system.profile.properties.imageVersion
dengan versi gambar yang salah sebagai nilai.Klik Simpan.
Membuat ulang cluster Dataproc statis yang digunakan oleh Cloud Data Fusion dengan versi image yang dipilih
Jika Anda menggunakan cluster Dataproc yang ada dengan Cloud Data Fusion, ikuti panduan Dataproc untuk membuat ulang cluster dengan versi image Dataproc yang dipilih untuk versi Cloud Data Fusion Anda.
Atau, Anda dapat membuat cluster Dataproc baru dengan versi image Dataproc yang dipilih, lalu menghapus dan membuat ulang profil compute di Cloud Data Fusion dengan nama profil compute yang sama dan nama cluster Dataproc yang diperbarui. Dengan cara ini, menjalankan pipeline batch dapat menyelesaikan eksekusi di cluster yang ada dan eksekusi pipeline berikutnya akan berlangsung di cluster Dataproc baru. Anda dapat menghapus cluster Dataproc lama setelah mengonfirmasi bahwa semua operasi pipeline telah selesai.
Pastikan versi image Dataproc telah diupdate
Konsol
Di konsol Google Cloud, buka halaman Clusters Dataproc.
Buka halaman Cluster details untuk cluster baru yang dibuat Cloud Data Fusion saat Anda menentukan versi baru.
Kolom Versi gambar memiliki nilai baru yang Anda tentukan di Cloud Data Fusion.
REST API
Dapatkan daftar cluster dengan metadatanya:
GET -H "Authorization: Bearer ${AUTH_TOKEN}" \ https://dataproc.googleapis.com/v1/projects/PROJECT_ID/regions/REGION_ID/clusters
Ganti kode berikut:
PROJECT_ID
dengan nama namespace AndaREGION_ID
dengan nama region tempat cluster Anda berada
Telusuri nama pipeline Anda (nama cluster).
Di bagian objek JSON tersebut, lihat gambar di
config > softwareConfig > imageVersion
.
Mengubah image Dataproc ke versi 2.2 atau 2.1
Cloud Data Fusion versi 6.9.1 dan yang lebih baru mendukung Compute Engine image Dataproc 2.1, yang berjalan di Java 11. Pada versi 6.10.0 dan yang lebih baru, image 2.1 adalah default.
Jika Anda beralih ke image 2.2 atau 2.1 dari image sebelumnya, agar pipeline batch dan tugas replikasi berhasil, driver JDBC yang digunakan plugin database di instance tersebut harus kompatibel dengan Java 11.
Image Dataproc 2.2 dan 2.1 memiliki batasan berikut di Cloud Data Fusion:
- Tugas map reduce tidak didukung.
- Versi driver JDBC yang digunakan di plugin database di instance Anda harus diupdate agar memiliki dukungan untuk Java 11. Lihat tabel berikut untuk mengetahui versi driver yang berfungsi dengan Dataproc 2.2, 2.1, dan Java 11:
Driver JDBC | Versi sebelumnya dihapus dari Cloud Data Fusion 6.9.1 | Versi yang didukung Java 8 dan Java 11 yang berfungsi dengan Dataproc 2.2, 2.1, atau 2.0 |
---|---|---|
Driver JDBC Cloud SQL untuk MySQL | - | 1.0.16 |
Driver JDBC Cloud SQL untuk PostgreSQL | - | 1.0.16 |
Driver JDBC Microsoft SQL Server | Driver JDBC Microsoft 6.0 | Driver JDBC Microsoft 9.4 |
Driver JDBC MySQL | 5.0.8, 5.1.39 | 8.0.25 |
Driver JDBC PostgreSQL | 9.4.1211.jre7, 9.4.1211.jre8 | 42.6.0.jre8 |
Driver JDBC Oracle | ojdbc7 | ojdbc8 (12c dan yang lebih baru) |
Penggunaan memori saat menggunakan Dataproc 2.2 atau 2.1
Penggunaan memori mungkin meningkat untuk pipeline yang menggunakan cluster Dataproc 2.2
atau 2.1. Jika Anda mengupgrade instance ke versi 6.10 atau yang lebih baru, dan
pipeline sebelumnya gagal karena masalah memori, tingkatkan memori driver dan
eksekutor menjadi 2048 MB dalam konfigurasi Resources
untuk
pipeline.
Atau, Anda dapat mengganti versi Dataproc dengan menetapkan
argumen runtime system.profile.properties.imageVersion
ke 2.0-debian10
.