Untuk mengurangi waktu mulai pipeline, instance Cloud Data Fusion versi 6.8.0 dan 6.8.1 meng-cache artefak yang diperlukan untuk memulai pipeline di cluster Dataproc di dalam bucket Cloud Storage.
Salah satu artefak yang di-cache ini adalah application.jar
. Bergantung pada urutan Anda menjalankan pipeline, beberapa pipeline mungkin gagal dengan error berikut:
Unsupported program type: Spark
Misalnya, setelah Anda membuat instance 6.8.1 baru (atau mengupgrade ke versi 6.8.1), saat pertama kali Anda menjalankan pipeline yang hanya berisi tindakan, proses tersebut berhasil. Namun, pipeline berikutnya yang dijalankan, yang menyertakan sumber atau sink, mungkin akan gagal dengan error ini.
Rekomendasi
Untuk mengatasi masalah ini, lakukan salah satu langkah berikut:
- Direkomendasikan: Upgrade instance ke Cloud Data Fusion versi 6.8.2 atau yang lebih baru.
- Nonaktifkan penyimpanan cache Cloud Storage dengan argumen preferensi atau runtime.
Anda dapat menonaktifkan penyimpanan cache untuk hal-hal berikut:
- Untuk semua pipeline dalam instance.
- Untuk namespace tertentu.
- Untuk profil Dataproc spesifik yang berisi pipeline yang gagal.
- Hanya untuk pipeline yang gagal.
Menonaktifkan cache Cloud Storage untuk semua pipeline dalam instance
Untuk menonaktifkan penyimpanan cache Cloud Storage bagi semua pipeline dalam instance, ikuti langkah-langkah berikut:
Konsol
- Buka instance Anda:
Di konsol Google Cloud, buka halaman Cloud Data Fusion.
Untuk membuka instance di antarmuka web Cloud Data Fusion, klik Instance, lalu klik View instance.
Klik System Admin > System Preferences dan tetapkan nilai untuk
system.profile.properties.gcsCacheEnabled
kefalse.
REST API
Untuk menetapkan system.profile.properties.gcsCacheEnabled
ke false
, lihat
Menyetel preferensi.
Menonaktifkan cache Cloud Storage untuk namespace tertentu
Untuk menonaktifkan penyimpanan cache Cloud Storage untuk namespace tertentu, ikuti langkah-langkah berikut:
Konsol
- Buka instance Anda:
Di konsol Google Cloud, buka halaman Cloud Data Fusion.
Untuk membuka instance di antarmuka web Cloud Data Fusion, klik Instance, lalu klik View instance.
- Klik System Admin > Namespace, lalu pilih namespace Anda.
Klik Preferensi > Edit dan tetapkan nilai untuk
system.profile.properties.gcsCacheEnabled
kefalse
.
REST API
Untuk menetapkannya melalui REST API, lihat Menetapkan preferensi.
Menonaktifkan cache Cloud Storage untuk profil Dataproc
Guna menonaktifkan penyimpanan cache Cloud Storage untuk profil Dataproc tertentu yang berisi pipeline yang gagal, ikuti langkah-langkah berikut:
Konsol
- Tetapkan
gcsCacheEnabled
kefalse
di profil Dataproc.
Menonaktifkan cache Cloud Storage hanya untuk pipeline yang gagal
Guna menonaktifkan cache Cloud Storage hanya untuk pipeline yang gagal, ikuti langkah-langkah berikut:
Konsol
- Buka instance Anda:
Di konsol Google Cloud, buka halaman Cloud Data Fusion.
Untuk membuka instance di antarmuka web Cloud Data Fusion, klik Instance, lalu klik View instance.
- Klik List dan pilih pipeline yang gagal.
- Klik
system.profile.properties.gcsCacheEnabled
kefalse
.
Luaskan di samping Run dan tetapkan argumen runtime
- Ulangi untuk pipeline lainnya yang gagal.
REST API
Cache Cloud Storage dapat dinonaktifkan saat memulai pipeline melalui REST API dan juga dengan menentukan argumen runtime sebagai peta JSON dalam isi permintaan secara opsional. Untuk informasi selengkapnya, lihat Memulai program.