Halaman ini diterjemahkan oleh Cloud Translation API.

Ringkasan Dataproc Serverless

Dataproc Serverless memungkinkan Anda menjalankan workload Spark tanpa mengharuskan Anda menyediakan dan mengelola cluster Dataproc Anda sendiri. Ada dua cara untuk menjalankan beban kerja Dataproc Serverless:

Dataproc Serverless untuk Spark Batch
Dataproc Serverless untuk Spark Interaktif

Dataproc Serverless untuk Spark Batch

Kirim beban kerja batch ke layanan Dataproc Serverless menggunakan Konsol Google Cloud, Google Cloud CLI, atau Dataproc API. Layanan ini menjalankan workload pada infrastruktur komputasi terkelola, serta melakukan penskalaan otomatis resource sesuai kebutuhan. Biaya Dataproc Serverless hanya berlaku saat workload dijalankan.

Untuk memulai, lihat Menjalankan beban kerja batch Apache Spark.

Dataproc Serverless untuk Spark Interaktif

Tulis dan jalankan kode di notebook Jupyter selama sesi Dataproc Serverless untuk Spark Interaktif. Anda dapat membuat sesi notebook dengan cara berikut:

Gunakan plugin JupyterLab Dataproc untuk membuat beberapa sesi notebook dari template yang Anda buat dan kelola. Saat Anda menginstal plugin di mesin lokal atau VM Compute Engine, kartu yang berbeda yang sesuai dengan konfigurasi kernel Spark yang berbeda akan muncul di halaman peluncur JupyterLab. Klik kartu untuk membuat sesi notebook Dataproc Serverless, lalu mulai menulis dan menguji kode Anda di notebook.

Plugin JupyterLab Dataproc juga memungkinkan Anda menggunakan halaman peluncur JupyterLab untuk melakukan tindakan berikut:
- Membuat Dataproc di cluster Compute Engine.
- Kirim tugas ke Dataproc di cluster Compute Engine.
- Melihat log Google Cloud dan Spark.

Untuk memulai, lihat Menggunakan JupyterLab untuk sesi notebook interaktif dan batch serverless.

Dataproc Serverless untuk Spark dibandingkan dengan Dataproc di Compute Engine

Jika Anda ingin menyediakan dan mengelola infrastruktur, lalu menjalankan beban kerja di Spark dan framework pemrosesan open source lainnya, gunakan Dataproc di Compute Engine. Tabel berikut mencantumkan perbedaan utama antara Dataproc di Compute Engine dan Dataproc Serverless untuk Spark.

Kemampuan	Dataproc Serverless untuk Spark	Dataproc di Compute Engine
Framework pemrosesan	Batch: Spark 3.4 dan versi sebelumnya Interaktif: Kernel PySpark untuk Spark 3.4 dan versi sebelumnya	Spark 3.3 dan versi sebelumnya. Framework open source lainnya, seperti Hive, Flink, Trino, dan Kafka
Serverless	Ya	Tidak
Waktu startup	60-an	90-an
Kontrol infrastruktur	Tidak	Ya
Pengelolaan resource	Berbasis Spark	Berbasis YARN
Dukungan GPU	Ya	Ya
Sesi interaktif	Ya	Tidak
Container kustom	Ya	Tidak
Akses VM (misalnya, SSH)	Tidak	Ya
Versi Java	Java 17, 11	Versi sebelumnya yang didukung
Dukungan `OS Login` *	Tidak	Ya

Catatan:

Kebijakan Login OS tidak berlaku untuk atau didukung oleh Dataproc Serverless. Jika organisasi Anda menerapkan kebijakan OS Login, workload Dataproc Serverless-nya akan gagal.

Kepatuhan keamanan Dataproc Serverless

Dataproc Serverless mematuhi semua kedudukan data, CMEK, VPC-SC, dan persyaratan keamanan lainnya yang dipatuhi Dataproc.

Kemampuan workload batch Dataproc Serverless untuk Spark

Anda dapat menjalankan Dataproc Serverless berikut untuk jenis beban kerja batch Spark:

PySpark
Spark SQL
Spark R
Spark (Java atau Scala)

Anda dapat menentukan properti Spark saat mengirimkan workload batch Dataproc Serverless for Spark.