Menginstal dan menjalankan notebook Jupyter di cluster Dataproc


Tujuan

Tutorial ini menunjukkan cara menginstal komponen Jupyter dan Anaconda Dataproc pada cluster baru, lalu menghubungkan ke UI notebook Jupyter yang berjalan di cluster dari browser lokal menggunakan Gateway Komponen Dataproc.

Biaya

Dalam dokumen ini, Anda menggunakan komponen Google Cloud yang dapat ditagih berikut:

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga. Pengguna baru Google Cloud mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Sebelum memulai

Jika belum melakukannya, buat project Google Cloud Platform dan bucket Cloud Storage.

  1. Menyiapkan project

    1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
    2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

      Buka pemilih project

    3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

    4. Aktifkan API Dataproc, Compute Engine, and Cloud Storage.

      Mengaktifkan API

    5. Menginstal Google Cloud CLI.
    6. Untuk initialize gcloud CLI, jalankan perintah berikut:

      gcloud init
    7. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

      Buka pemilih project

    8. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

    9. Aktifkan API Dataproc, Compute Engine, and Cloud Storage.

      Mengaktifkan API

    10. Menginstal Google Cloud CLI.
    11. Untuk initialize gcloud CLI, jalankan perintah berikut:

      gcloud init

  2. Membuat bucket Cloud Storage di project Anda untuk menyimpan notebook apa pun yang Anda buat dalam tutorial ini.

    1. Di Konsol Google Cloud, buka halaman Bucket Cloud Storage.

      Buka halaman Bucket

    2. Klik Buat bucket.
    3. Di halaman Buat bucket, masukkan informasi bucket Anda. Untuk melanjutkan ke langkah berikutnya, klik Lanjutkan.
      • Untuk Beri nama bucket, masukkan nama yang memenuhi persyaratan penamaan bucket.
      • Untuk Pilih tempat untuk menyimpan data, lakukan tindakan berikut:
        • Pilih opsi Jenis lokasi.
        • Pilih opsi Lokasi.
      • Untuk Memilih kelas penyimpanan default untuk data Anda, pilih kelas penyimpanan.
      • Untuk Memilih cara mengontrol akses ke objek, pilih opsi Kontrol akses.
      • Untuk Setelan lanjutan (opsional), tentukan metode enkripsi, kebijakan retensi, atau label bucket.
    4. Klik Buat.
    5. Notebook Anda akan disimpan di Cloud Storage di bagian gs://bucket-name/notebooks/jupyter.

Buat cluster dan instal komponen Jupyter

Buat cluster dengan komponen Jupyter yang terinstal.

Buka UI Jupyter dan JupyterLab

Klik link Gateway Komponen Google Cloud Console di Konsol Google Cloud untuk membuka notebook Jupyter atau UI JupyterLab yang berjalan di node master cluster Anda.

Direktori tingkat atas yang ditampilkan oleh instance Jupyter adalah direktori virtual yang memungkinkan Anda melihat isi bucket Cloud Storage atau sistem file lokal. Anda dapat memilih salah satu lokasi dengan mengklik link GCS untuk Cloud Storage atau Disk Lokal untuk sistem file lokal node master di cluster Anda.

  1. Klik link GCS. UI web notebook Jupyter menampilkan notebook yang disimpan di bucket Cloud Storage, termasuk notebook apa pun yang Anda buat dalam tutorial ini.

Pembersihan

Setelah menyelesaikan tutorial, Anda dapat membersihkan resource yang dibuat agar resource tersebut berhenti menggunakan kuota dan dikenai biaya. Bagian berikut menjelaskan cara menghapus atau menonaktifkan resource ini.

Menghapus project

Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.

Untuk menghapus project:

  1. Di konsol Google Cloud, buka halaman Manage resource.

    Buka Manage resource

  2. Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
  3. Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Menghapus cluster

  • Untuk menghapus cluster:
    gcloud dataproc clusters delete cluster-name \
        --region=${REGION}
    

Menghapus bucket

  • Untuk menghapus bucket Cloud Storage yang Anda buat di Sebelum memulai, langkah 2, termasuk notebook yang disimpan di bucket:
    gsutil -m rm -r gs://${BUCKET_NAME}
    

Langkah selanjutnya