Menggunakan Dataproc Hub


Tujuan

  1. Gunakan Dataproc Hub untuk membuat lingkungan notebook JupyterLab satu pengguna yang berjalan di cluster Dataproc.

  2. Buat notebook dan jalankan tugas Spark di cluster Dataproc.

  3. Hapus cluster dan simpan notebook Anda di Cloud Storage.

Sebelum memulai

  1. Administrator harus memberi Anda izin notebooks.instances.use (lihat Menetapkan peran Identity and Access Management (IAM)).

Membuat cluster JupyterLab Dataproc dari Dataproc Hub

  1. Pilih tab Notebook yang Dikelola Pengguna di halaman Dataproc→Workbench di konsol Google Cloud.

  2. Klik Open JupyterLab di baris yang mencantumkan instance Dataproc Hub yang dibuat oleh administrator.

    1. Jika Anda tidak memiliki akses ke konsol Google Cloud, masukkan URL instance Dataproc Hub yang dibagikan oleh administrator kepada Anda di browser web.
  3. Di halaman Jupyterhub→Dataproc Options, pilih konfigurasi dan zona cluster. Jika diaktifkan, tentukan penyesuaian apa pun, lalu klik Create.

    Setelah cluster Dataproc dibuat, Anda akan dialihkan ke antarmuka JupyterLab yang berjalan di cluster.

Membuat notebook dan menjalankan tugas Spark

  1. Di panel kiri antarmuka JupyterLab, klik GCS (Cloud Storage).

  2. Buat notebook PySpark dari peluncur JupyterLab.

  3. Kernel PySpark melakukan inisialisasi SparkContext (menggunakan variabel sc). Anda dapat memeriksa SparkContext dan menjalankan tugas Spark dari notebook.

    rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
           .map(lambda word: (word, 1))
           .reduceByKey(lambda a, b: a + b))
    print(rdd.collect())
    
  4. Beri nama dan simpan notebook. Notebook disimpan dan tetap berada di Cloud Storage setelah cluster Dataproc dihapus.

Mematikan cluster Dataproc

  1. Dari antarmuka JupyterLab, pilih File→Hub Control Panel untuk membuka halaman Jupyterhub.

  2. Klik Stop My Cluster untuk menonaktifkan (menghapus) server JupyterLab, yang akan menghapus cluster Dataproc.

Langkah selanjutnya