Menggunakan Dataproc Serverless Spark dengan notebook terkelola
Halaman ini menunjukkan cara menjalankan file notebook di Serverless Spark dalam instance notebook terkelola Vertex AI Workbench menggunakan Dataproc Serverless.
Instance notebook terkelola Anda dapat mengirimkan kode file notebook untuk dijalankan pada layanan Dataproc Serverless. Layanan menjalankan kode pada infrastruktur komputasi terkelola yang otomatis menskalakan resource sesuai kebutuhan. Oleh karena itu, Anda tidak perlu menyediakan dan mengelola cluster Anda sendiri.
Biaya Dataproc Serverless hanya berlaku saat workload dijalankan.
Persyaratan
Untuk menjalankan file notebook di Serverless Spark Dataproc, lihat persyaratan berikut.
Sesi Dataproc Serverless Anda harus berjalan di region yang sama dengan instance notebook terkelola Anda.
Batasan Wajibkan Login OS (
constraints/compute.requireOsLogin
) tidak boleh diaktifkan untuk project Anda. Baca Mengelola Login OS di organisasi.Untuk menjalankan file notebook di Dataproc Serverless, Anda harus menyediakan akun layanan yang memiliki izin khusus. Anda dapat memberikan izin ini ke akun layanan default atau memberikan akun layanan kustom. Lihat bagian Izin di halaman ini.
Sesi Dataproc Serverless Spark Anda menggunakan jaringan Virtual Private Cloud (VPC) untuk menjalankan workload. Subnetwork VPC harus memenuhi persyaratan tertentu. Lihat persyaratan di Dataproc Serverless untuk konfigurasi jaringan Spark.
Izin
Untuk memastikan bahwa akun layanan memiliki izin yang diperlukan untuk menjalankan file notebook di Dataproc Serverless, minta administrator Anda untuk memberikan akun layanan Peran IAM Dataproc Editor (roles/dataproc.editor
) di project Anda.
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.
Peran yang telah ditentukan ini berisi izin yang diperlukan untuk menjalankan file notebook di Dataproc Serverless. Untuk melihat izin yang benar-benar diperlukan, luaskan bagian Izin yang diperlukan:
Izin yang diperlukan
Izin berikut diperlukan untuk menjalankan file notebook di Dataproc Serverless:
-
dataproc.agents.create
-
dataproc.agents.delete
-
dataproc.agents.get
-
dataproc.agents.update
-
dataproc.session.create
-
dataproc.sessions.get
-
dataproc.sessions.list
-
dataproc.sessions.terminate
-
dataproc.sessions.delete
-
dataproc.tasks.lease
-
dataproc.tasks.listInvalidatedLeases
-
dataproc.tasks.reportStatus
Administrator Anda mungkin juga dapat memberikan izin ini kepada akun layanan dengan peran khusus atau peran bawaan lainnya.
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Notebooks, Vertex AI, and Dataproc APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Notebooks, Vertex AI, and Dataproc APIs.
- Buat instance notebook terkelola, jika Anda belum membuatnya.
- Jika belum melakukannya, konfigurasikan jaringan VPC yang memenuhi persyaratan yang tercantum dalam Dataproc Serverless untuk konfigurasi jaringan Spark.
Membuka JupyterLab
Di Konsol Google Cloud, buka halaman Managed notebooks.
Di samping nama instance notebook terkelola, klik Open JupyterLab.
Memulai sesi Dataproc Serverless Spark
Untuk memulai sesi Dataproc Serverless Spark, selesaikan langkah-langkah berikut.
Di antarmuka JupyterLab instance notebook terkelola Anda, pilih tab Launcher, lalu pilih Serverless Spark. Jika tab Launcher tidak terbuka, pilih File > New Launcher untuk membukanya.
Dialog Create Serverless Spark session akan muncul.
Di kolom Nama sesi, masukkan nama untuk sesi Anda.
Di bagian Execution configuration, masukkan Service account yang ingin Anda gunakan. Jika Anda tidak memasukkan akun layanan, sesi Anda akan menggunakan akun layanan default Compute Engine.
Di bagian Network configuration, pilih Network dan Subnetwork dari jaringan yang memenuhi persyaratan yang tercantum dalam Dataproc Serverless untuk konfigurasi jaringan Spark.
Klik Buat.
File notebook baru akan terbuka. Sesi Dataproc Serverless Spark yang Anda buat adalah kernel yang menjalankan kode file notebook Anda.
Jalankan kode Anda pada Dataproc Serverless Spark dan kernel lainnya
Tambahkan kode ke file notebook baru, dan jalankan kodenya.
Untuk menjalankan kode pada kernel lain, ubah kernel.
Jika Anda ingin menjalankan lagi kode pada sesi Dataproc Serverless Spark, ubah kernel kembali ke kernel Dataproc Serverless Spark.
Hentikan sesi Dataproc Serverless Spark Anda
Anda dapat menghentikan sesi Dataproc Serverless Spark di antarmuka JupyterLab atau di konsol Google Cloud. Kode di file notebook Anda akan dipertahankan.
JupyterLab
Di JupyterLab, tutup file notebook yang dibuat saat Anda membuat sesi Dataproc Serverless Spark.
Pada dialog yang muncul, klik Hentikan sesi.
Konsol Google Cloud
Di konsol Google Cloud, buka halaman Sesi Dataproc.
Pilih sesi yang ingin Anda hentikan, lalu klik Hentikan.
Menghapus sesi Dataproc Serverless Spark Anda
Anda dapat menghapus sesi Dataproc Serverless Spark menggunakan Konsol Google Cloud. Kode di file notebook Anda akan dipertahankan.
Di konsol Google Cloud, buka halaman Sesi Dataproc.
Pilih sesi yang ingin Anda hapus, lalu klik Delete.
Langkah berikutnya
- Pelajari Dataproc Serverless lebih lanjut.