Untuk mengurangi waktu mulai pipeline, instance Cloud Data Fusion versi 6.8.0 dan
6.8.1 meng-cache artefak yang diperlukan untuk memulai pipeline di
cluster Dataproc di dalam bucket Cloud Storage.
Salah satu artefak yang di-cache ini adalah application.jar
. Bergantung pada urutan
Anda menjalankan pipeline, beberapa pipeline mungkin gagal dengan error
berikut:
Unsupported program type: Spark
Misalnya, setelah Anda membuat instance 6.8.1 baru (atau mengupgrade ke 6.8.1), saat pertama kali menjalankan pipeline yang hanya berisi tindakan, pipeline tersebut akan berhasil. Namun, pipeline berikutnya yang berjalan, yang mencakup sumber atau sink, mungkin gagal dengan error ini.
Rekomendasi
Untuk mengatasi masalah ini, lakukan salah satu tindakan berikut:
- Direkomendasikan: Upgrade instance ke Cloud Data Fusion versi 6.8.2 atau yang lebih baru.
- Nonaktifkan penyimpanan cache Cloud Storage berdasarkan preferensi atau argumen runtime.
Anda dapat menonaktifkan penyimpanan dalam cache untuk salah satu hal berikut:
- Untuk semua pipeline dalam instance.
- Untuk namespace tertentu.
- Untuk profil Dataproc tertentu yang berisi pipeline yang gagal.
- Hanya untuk pipeline yang gagal.
Menonaktifkan cache Cloud Storage untuk semua pipeline dalam instance
Untuk menonaktifkan cache Cloud Storage untuk semua pipeline dalam instance, ikuti langkah-langkah berikut:
Konsol
- Buka instance Anda:
Di konsol Google Cloud, buka halaman Cloud Data Fusion.
Untuk membuka instance di Cloud Data Fusion Studio, klik Instance, lalu klik View instance.
Klik System Admin > System Preferences dan tetapkan nilai untuk
system.profile.properties.gcsCacheEnabled
kefalse.
REST API
Untuk menetapkan system.profile.properties.gcsCacheEnabled
ke false
, lihat
Menetapkan preferensi.
Menonaktifkan cache Cloud Storage untuk namespace tertentu
Untuk menonaktifkan cache Cloud Storage untuk namespace tertentu, ikuti langkah-langkah berikut:
Konsol
- Buka instance Anda:
Di konsol Google Cloud, buka halaman Cloud Data Fusion.
Untuk membuka instance di Cloud Data Fusion Studio, klik Instance, lalu klik View instance.
- Klik System Admin > Namespaces, lalu pilih namespace Anda.
Klik Preferensi > Edit dan tetapkan nilai untuk
system.profile.properties.gcsCacheEnabled
kefalse
.
REST API
Untuk menetapkannya melalui REST API, lihat Menetapkan preferensi.
Menonaktifkan cache Cloud Storage untuk profil Dataproc
Untuk menonaktifkan penyimpanan dalam cache Cloud Storage untuk profil Dataproc tertentu yang berisi pipeline yang gagal, ikuti langkah-langkah berikut:
Konsol
- Tetapkan
gcsCacheEnabled
kefalse
di profil Dataproc.
Menonaktifkan cache Cloud Storage hanya untuk pipeline yang gagal
Untuk menonaktifkan cache Cloud Storage hanya untuk pipeline yang gagal, ikuti langkah-langkah berikut:
Konsol
- Buka instance Anda:
Di konsol Google Cloud, buka halaman Cloud Data Fusion.
Untuk membuka instance di Cloud Data Fusion Studio, klik Instance, lalu klik View instance.
- Klik Daftar, lalu pilih pipeline yang gagal.
- Klik
system.profile.properties.gcsCacheEnabled
kefalse
.
Luaskan di samping Jalankan dan tetapkan argumen runtime - Ulangi untuk pipeline lain yang gagal.
REST API
Penyimpanan dalam cache Cloud Storage dapat dinonaktifkan saat memulai pipeline melalui REST API dan juga dengan menentukan argumen runtime sebagai peta JSON dalam isi permintaan secara opsional. Untuk mengetahui informasi selengkapnya, lihat Memulai program.