Menggunakan Dataproc Serverless Spark dengan notebook terkelola

Halaman ini menunjukkan cara menjalankan file notebook di Serverless Spark dalam instance notebook terkelola Vertex AI Workbench menggunakan Dataproc Serverless.

Instance notebook terkelola Anda dapat mengirimkan kode file notebook untuk dijalankan pada layanan Dataproc Serverless. Layanan menjalankan kode pada infrastruktur komputasi terkelola yang otomatis menskalakan resource sesuai kebutuhan. Oleh karena itu, Anda tidak perlu menyediakan dan mengelola cluster Anda sendiri.

Biaya Dataproc Serverless hanya berlaku saat workload dijalankan.

Persyaratan

Untuk menjalankan file notebook di Serverless Spark Dataproc, lihat persyaratan berikut.

  • Sesi Dataproc Serverless Anda harus berjalan di region yang sama dengan instance notebook terkelola Anda.

  • Batasan Wajibkan Login OS (constraints/compute.requireOsLogin) tidak boleh diaktifkan untuk project Anda. Baca Mengelola Login OS di organisasi.

  • Untuk menjalankan file notebook di Dataproc Serverless, Anda harus menyediakan akun layanan yang memiliki izin khusus. Anda dapat memberikan izin ini ke akun layanan default atau memberikan akun layanan kustom. Lihat bagian Izin di halaman ini.

  • Sesi Dataproc Serverless Spark Anda menggunakan jaringan Virtual Private Cloud (VPC) untuk menjalankan workload. Subnetwork VPC harus memenuhi persyaratan tertentu. Lihat persyaratan di Dataproc Serverless untuk konfigurasi jaringan Spark.

Izin

Untuk memastikan akun layanan memiliki izin yang diperlukan untuk menjalankan file notebook di Dataproc Serverless, minta administrator Anda untuk memberikan peran IAM Dataproc Editor (roles/dataproc.editor) ke akun layanan pada project Anda. Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses.

Peran yang telah ditentukan ini berisi izin yang diperlukan untuk menjalankan file notebook di Dataproc Serverless. Untuk melihat izin yang benar-benar diperlukan, luaskan bagian Izin yang diperlukan:

Izin yang diperlukan

Izin berikut diperlukan untuk menjalankan file notebook di Dataproc Serverless:

  • dataproc.agents.create
  • dataproc.agents.delete
  • dataproc.agents.get
  • dataproc.agents.update
  • dataproc.session.create
  • dataproc.sessions.get
  • dataproc.sessions.list
  • dataproc.sessions.terminate
  • dataproc.sessions.delete
  • dataproc.tasks.lease
  • dataproc.tasks.listInvalidatedLeases
  • dataproc.tasks.reportStatus

Administrator mungkin juga dapat memberi akun layanan izin ini dengan peran khusus atau peran yang telah ditetapkan sebelumnya.

Sebelum memulai

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Enable the Notebooks, Vertex AI, and Dataproc APIs.

    Enable the APIs

  5. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  6. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  7. Enable the Notebooks, Vertex AI, and Dataproc APIs.

    Enable the APIs

  8. Buat instance notebook terkelola, jika Anda belum membuatnya.
  9. Jika belum melakukannya, konfigurasikan jaringan VPC yang memenuhi persyaratan yang tercantum dalam Dataproc Serverless untuk konfigurasi jaringan Spark.

Membuka JupyterLab

  1. Di Konsol Google Cloud, buka halaman Managed notebooks.

    Buka Notebook terkelola

  2. Di samping nama instance notebook terkelola, klik Open JupyterLab.

Memulai sesi Dataproc Serverless Spark

Untuk memulai sesi Dataproc Serverless Spark, selesaikan langkah-langkah berikut.

  1. Di antarmuka JupyterLab instance notebook terkelola Anda, pilih tab Launcher, lalu pilih Serverless Spark. Jika tab Launcher tidak terbuka, pilih File > New Launcher untuk membukanya.

    Dialog Create Serverless Spark session akan muncul.

  2. Di kolom Nama sesi, masukkan nama untuk sesi Anda.

  3. Di bagian Execution configuration, masukkan Service account yang ingin Anda gunakan. Jika Anda tidak memasukkan akun layanan, sesi Anda akan menggunakan akun layanan default Compute Engine.

  4. Di bagian Network configuration, pilih Network dan Subnetwork dari jaringan yang memenuhi persyaratan yang tercantum dalam Dataproc Serverless untuk konfigurasi jaringan Spark.

  5. Klik Create.

    File notebook baru akan terbuka. Sesi Dataproc Serverless Spark yang Anda buat adalah kernel yang menjalankan kode file notebook Anda.

Jalankan kode Anda pada Dataproc Serverless Spark dan kernel lainnya

  1. Tambahkan kode ke file notebook baru, dan jalankan kodenya.

  2. Untuk menjalankan kode pada kernel lain, ubah kernel.

  3. Jika Anda ingin menjalankan lagi kode pada sesi Dataproc Serverless Spark, ubah kernel kembali ke kernel Dataproc Serverless Spark.

Hentikan sesi Dataproc Serverless Spark Anda

Anda dapat menghentikan sesi Dataproc Serverless Spark di antarmuka JupyterLab atau di konsol Google Cloud. Kode di file notebook Anda akan dipertahankan.

JupyterLab

  1. Di JupyterLab, tutup file notebook yang dibuat saat Anda membuat sesi Dataproc Serverless Spark.

  2. Pada dialog yang muncul, klik Hentikan sesi.

Konsol Google Cloud

  1. Di konsol Google Cloud, buka halaman Sesi Dataproc.

    Buka sesi Dataproc

  2. Pilih sesi yang ingin Anda hentikan, lalu klik Hentikan.

Menghapus sesi Dataproc Serverless Spark Anda

Anda dapat menghapus sesi Dataproc Serverless Spark menggunakan Konsol Google Cloud. Kode di file notebook Anda akan dipertahankan.

  1. Di konsol Google Cloud, buka halaman Sesi Dataproc.

    Buka sesi Dataproc

  2. Pilih sesi yang ingin Anda hapus, lalu klik Delete.

Langkah selanjutnya