Dataproc Serverless memungkinkan Anda menjalankan beban kerja Spark tanpa mengharuskan Anda menyediakan dan mengelola cluster Dataproc Anda sendiri.
Ada dua cara untuk menjalankan beban kerja Dataproc Serverless:
Dataproc Serverless untuk Spark Batch: Gunakan konsol Google Cloud, Google Cloud CLI, atau Dataproc API untuk mengirimkan workload batch ke layanan Dataproc Serverless. Layanan ini akan menjalankan beban kerja pada infrastruktur komputasi terkelola, dengan penskalaan otomatis resource sesuai kebutuhan. Biaya Dataproc Serverless hanya berlaku saat beban kerja dieksekusi.
Untuk memulai, lihat Menjalankan beban kerja batch Apache Spark.
Dataproc Serverless untuk Spark Interactive: Tulis dan jalankan kode di notebook Jupyter selama sesi Dataproc Serverless untuk sesi Interaktif Spark. Anda dapat membuat sesi notebook dengan cara berikut:
- Gunakan plugin Dataproc JupyterLab untuk membuat beberapa sesi notebook dari template yang Anda buat dan kelola. Saat Anda menginstal plugin di komputer lokal atau VM Compute Engine, kartu lain yang sesuai dengan konfigurasi kernel Spark yang berbeda akan muncul di halaman peluncur JupyterLab. Klik kartu untuk membuat sesi notebook Dataproc Serverless, lalu mulailah menulis dan menguji kode Anda di notebook.
Plugin Dataproc JupyterLab juga memungkinkan Anda menggunakan halaman peluncur JupyterLab untuk melakukan tindakan berikut:
- Buat Dataproc di cluster Compute Engine.
- Kirim tugas ke Dataproc di cluster Compute Engine.
- Melihat log Google Cloud dan Spark.
Untuk memulai, lihat Menggunakan JupyterLab untuk sesi notebook interaktif dan batch serverless.
Dataproc Serverless untuk Spark dibandingkan dengan Dataproc di Compute Engine
Dataproc di Compute Engine sangat ideal jika Anda ingin menyediakan dan mengelola infrastruktur, lalu menjalankan beban kerja di Spark dan framework pemrosesan open source lainnya. Tabel berikut mencantumkan perbedaan utama antara Dataproc di Compute Engine dan Dataproc Serverless untuk Spark.
Kemampuan | Dataproc Serverless untuk Spark | Dataproc di Compute Engine |
---|---|---|
Framework pemrosesan | Batch: Spark 3.4 dan versi yang lebih lama Interactive: Kernel PySpark untuk Spark 3.4 dan versi yang lebih lama |
Spark 3.3 dan versi yang lebih lama. Framework open source lainnya, seperti Hive, Flink, Trino, dan Kafka |
Serverless | Ya | Tidak |
Waktu startup | 60 dtk | 90-an |
Kontrol infrastruktur | Tidak | Ya |
Pengelolaan resource | Berbasis percikan | Berbasis YARN |
Dukungan GPU | Direncanakan | Ya |
Sesi interaktif | Ya | Tidak |
Container kustom | Ya | Tidak |
Akses VM (misalnya, SSH) | Tidak | Ya |
Versi Java | Java 17, 11 | Versi sebelumnya didukung |
Dukungan OS Login * |
Tidak | Ya |
Catatan:
- Kebijakan Login OS tidak berlaku untuk atau didukung oleh Dataproc Serverless.
Jika organisasi Anda menerapkan kebijakan
OS Login
, beban kerja Dataproc Serverless-nya akan gagal.
Kepatuhan keamanan Serverless Dataproc
Dataproc Serverless mematuhi semua residensi data, CMEK, VPC-SC, dan persyaratan keamanan lainnya yang dipatuhi oleh Dataproc.
Dataproc Serverless untuk kemampuan workload batch Spark
Anda dapat menjalankan Dataproc Serverless untuk jenis beban kerja batch Spark berikut:
- Percikan api
- Spark SQL
- Percikan R
- Spark (Java atau Scala)
Anda dapat menentukan properti Spark saat mengirimkan Dataproc Serverless untuk workload batch Spark.