Panduan keandalan Dataproc

Last reviewed 2023-07-20 UTC

Dataproc adalah layanan skalabel dan terkelola sepenuhnya yang digunakan untuk menjalankan tugas Apache Hadoop dan Spark. Dengan Dataproc, mesin virtual dapat disesuaikan serta ditingkat turunkan skalanya sesuai kebutuhan. Dataproc terintegrasi secara erat dengan Cloud Storage, BigQuery, Bigtable, dan layanan Google Cloud lainnya.

Praktik terbaik

  • Mode Ketersediaan Tinggi Dataproc - membandingkan mode Ketersediaan Tinggi Hadoop/High Availability (HA) dengan mode non-HA default dalam hal nama instance, Apache ZooKeeper, Hadoop Distributed File System (HDFS), dan Yet Another Resource Negotiator (YARN). Pelajari juga cara membuat cluster ketersediaan tinggi.
  • Cluster penskalaan otomatis - kapan harus menggunakan penskalaan otomatis Dataproc, cara membuat kebijakan penskalaan otomatis, penggunaan kebijakan multi-cluster, praktik keandalan terbaik untuk konfigurasi penskalaan otomatis, serta metrik dan log.
  • Mode Fleksibilitas yang Ditingkatkan/Enhanced Flexibility Mode (EFM) Dataflow - contoh penggunaan Mode Fleksibilitas yang Ditingkatkan untuk meminimalisir penundaan progres tugas, konfigurasi lanjutan seperti partisi dan paralelisme, serta penghentian halus YARN pada cluster EFM.
  • Penghentian tuntas - menggunakan penghentian tuntas untuk meminimalkan dampak penghapusan worker dari cluster, cara menggunakan fitur ini dengan worker sekunder, dan contoh perintah untuk penghentian tuntas.
  • Tugas yang dapat dimulai ulang - dengan menggunakan setelan opsional, Anda dapat menyetel tugas untuk dimulai ulang jika gagal memitigasi jenis kegagalan tugas yang umum, termasuk masalah kehabisan memori dan reboot mesin virtual Compute Engine yang tidak terduga.