FAQ Dataproc Serverless

Halaman ini berisi pertanyaan umum tentang Dataproc Serverless beserta jawabannya.

Kapan saya harus menggunakan Dataproc Serverless untuk Spark, bukan Dataproc di Compute Engine?

  • Serverless Dataproc:

    • Mendukung workload batch Spark dan sesi interaktif di notebook Jupyter kernel PySpark.
    • Dataproc Serverless membuat dan mengelola beban kerja dan infrastruktur sesi interaktif Anda.
  • Dataproc di Compute Engine:

    • Mendukung pengiriman berbagai jenis tugas Spark, dan tugas berdasarkan komponen open source lainnya, seperti Flink, Hadoop, Hive, Pig, Presto, dan lainnya.

    • Tidak membuat dan mengelola infrastruktur. Anda membuat dan mengelola cluster Dataproc.

Apa yang dapat saya lakukan dengan Dataproc Serverless untuk Spark?

  • Jalankan tugas batch.

  • Gunakan plugin Dataproc JupyterLab untuk sesi batch serverless dan notebook interaktif.

  • Jalankan tugas streaming menggunakan library streaming Spark. Catatan: Streaming bukan layanan terkelola, jadi Anda harus mengelola checkpoint dan memulai ulang.

  • Melatih model menggunakan Spark MLlib.

  • Gunakan notebook SQL interaktif untuk eksplorasi data, grafik, deret waktu, dan analisis geospasial.

  • Orkestrasikan Dataproc Serverless untuk workload Spark dengan Cloud Composer, layanan Apache Airflow yang terkelola.

Bagaimana cara menyiapkan rencana eksekusi workload?

Anda dapat menjalankan workload secara serentak atau berurutan. Rencana eksekusi Anda memengaruhi kuota resource Google Cloud. Anda dapat menjalankan beban kerja sebanyak yang diizinkan secara paralel sesuai yang diizinkan oleh kuota resource batch.

Dapatkah saya menggunakan image kustom dengan Dataproc Serverless untuk Spark?

Dapatkah saya menentukan resource memori dan disk untuk workload Dataproc Serverless Spark?

Ya. Anda dapat menentukan eksekutor dan komputasi driver premium, serta jumlah resource komputasi dan disk driver dan eksekutor yang akan dialokasikan saat Anda mengirimkan workload (lihat Properti alokasi resource).

Bagaimana cara menentukan rentang alamat IP untuk jaringan VPC Serverless Dataproc saya?

Dataproc Serverless untuk workload Spark berjalan di dalam lingkungan Anda. Setiap driver Spark dan eksekutor Spark dalam workload Serverless Spark menggunakan satu alamat IP internal di jaringan VPC Dataproc Serverless Anda. /16 adalah rentang alamat CIDR standar yang ditentukan pengguna untuk jaringan VPC Dataproc Serverless. Anda dapat membatasi rentang alamat IP jaringan berdasarkan jumlah beban kerja serentak yang ingin Anda jalankan.

Apakah Dataproc Serverless mendukung residensi data?

Ya. Anda menentukan region tempat beban kerja Anda diproses. Menemukan set data input dan output di region yang ditentukan.

Bagaimana cara Dataproc Serverless memilih zona dalam region yang Anda tentukan untuk menjalankan beban kerja?

Dataproc Serverless memilih zona Compute Engine tempatnya menjalankan workload berdasarkan kapasitas dan ketersediaan. Jika suatu zona menjadi tidak tersedia setelah beban kerja dimulai, beban kerja akan gagal, dan Anda harus mengirim ulang beban kerja yang gagal.

Bagaimana cara workload Dataproc Serverless menggunakan resource komputasi?

Setiap beban kerja dijalankan pada resource komputasinya sendiri. Beberapa pengiriman batch tidak membagikan atau menggunakan kembali resource komputasi.

Praktik Terbaik:

  • Optimalkan beban kerja Anda untuk tugas yang berjalan sedang, bukan tugas jangka pendek.

  • Mempertahankan data yang diakses oleh beberapa workload di Cloud Storage.

Di mana saya dapat menemukan informasi tentang pengumuman, fitur, perbaikan bug, masalah umum, dan penghentian penggunaan Dataproc Serverless?

Lihat catatan rilis Dataproc Serverless.

Apakah beban kerja serentak bersaing untuk mendapatkan resource?

Workload Dataproc Serverless hanya bersaing untuk mendapatkan resource jika kuota resource Anda tidak cukup untuk menjalankan semua beban kerja yang berjalan secara serentak. Jika tidak, beban kerja akan sepenuhnya terisolasi satu sama lain.

Bagaimana cara kuota Serverless Dataproc dialokasikan?

Batch Dataproc Serverless menggunakan resource Google Cloud. Lihat Kuota Dataproc Serverless untuk informasi selengkapnya.

Apakah saya perlu menyiapkan Server Histori Persisten Dataproc?

Menyiapkan Persistent History Server (PHS) untuk digunakan dengan Dataproc Serverless bersifat opsional.Anda dapat menggunakan PHS untuk melihat peristiwa Spark dan log lainnya di bucket Cloud Storage yang ditentukan hingga dan setelah periode staging dan temp bucket Dataproc Serverless standar selama periode retensi 90 hari (TTL).

Log Spark Serverless Dataproc apa yang tersedia?

Eksekutor dan log driver Spark tersedia di Cloud Logging selama dan setelah eksekusi workload Spark. Selain itu, aplikasi Spark terlihat di antarmuka web Persistent History Server (PHS) saat beban kerja sedang berjalan (pilih PHS > Incomplete Applications di UI PHS).

Jika Anda menyiapkan Dataproc PHS, Dataproc akan memberikan akses tetap ke log peristiwa Spark yang tersimpan di Cloud Storage, yang memberikan insight mengenai eksekusi aplikasi Spark, seperti DAG dan peristiwa eksekutor.

Dapatkah saya menetapkan jumlah eksekutor untuk beban kerja Spark saya?

Ya. Anda dapat menetapkan jumlah eksekutor untuk workload Spark menggunakan properti spark.executor.instances. Namun, jumlah total core yang dapat digunakan beban kerja lebih penting daripada jumlah eksekutor karena Spark menjalankan 1 tugas per inti. Misalnya, jika beban kerja memiliki empat eksekutor yang masing-masing memiliki dua core, beban kerja tersebut akan menjalankan tugas 4 * 2 = 8 secara bersamaan. Dan juga akan menjalankan jumlah tugas yang sama untuk beban kerja yang memiliki dua eksekutor dengan masing-masing empat inti. Karena jumlah core untuk setiap beban kerja sama, mereka akan menjalankan jumlah tugas yang sama. Anda dapat menggunakan properti spark.executor.cores untuk menetapkan jumlah core per eksekutor untuk beban kerja Dataproc Serverless Anda.

Metrik Spark apa yang digunakan Dataproc Serverless untuk penskalaan otomatis?

Dataproc Serverless untuk Spark mempertimbangkan metrik alokasi dinamis Spark maximum-needed dan running untuk menentukan apakah akan meningkatkan atau menurunkan skala. Lihat Dataproc Serverless untuk penskalaan otomatis Spark.

Dapatkah saya mengonfigurasi perilaku penskalaan otomatis Dataproc Serverless menggunakan properti Spark?

Ya. Penskalaan otomatis Dataproc Serverless didasarkan pada alokasi dinamis Spark, dan diaktifkan secara default. Anda dapat menyesuaikan Properti Spark dan Properti alokasi dinamis Spark berikut:

  • spark.executor.instances
  • spark.dynamicAllocation.initialExecutors
  • spark.dynamicAllocation.minExecutors
  • spark.dynamicAllocation.maxExecutors

Mengapa saya perlu mengemas kode dalam file JAR untuk mengirimkan beban kerja Spark?

Spark ditulis dalam Scala, yang berarti bahwa proses driver dan pekerja beroperasi sebagai proses JVM. Dalam bahasa JVM, file JAR adalah cara utama untuk memaketkan kode. Anda meneruskan file JAR ke Dataproc Serverless saat mengirimkan beban kerja.