Anda dapat menginstal komponen tambahan seperti Jupyter saat membuat cluster Dataproc menggunakan fitur Komponen opsional. Halaman ini menjelaskan komponen Jupyter.
Komponen Jupyter
adalah notebook single-user berbasis Web untuk analisis data interaktif dan mendukung
UI Web
JupyterLab. UI Web Jupyter tersedia di port 8123
pada node master pertama cluster.
Meluncurkan notebook untuk beberapa pengguna. Anda dapat membuat instance Vertex AI Workbench yang mengaktifkan Dataproc atau menginstal plugin JupyterLab Dataproc di VM untuk menayangkan notebook kepada beberapa pengguna.
Konfigurasi Jupyter. Jupyter dapat dikonfigurasi dengan menyediakan dataproc:jupyter
properti cluster.
Untuk mengurangi risiko eksekusi kode jarak jauh melalui API server notebook yang tidak aman, setelan properti cluster dataproc:jupyter.listen.all.interfaces
default adalah false
, yang membatasi koneksi ke localhost (127.0.0.1)
saat Component Gateway diaktifkan (Pengaktifan Component Gateway diperlukan saat menginstal komponen Jupyter).
Notebook Jupyter menyediakan kernel Python untuk menjalankan kode Spark, dan
kernel PySpark. Secara default, notebook disimpan di Cloud Storage
di bucket staging Dataproc, yang ditentukan oleh pengguna atau
dibuat otomatis
saat cluster dibuat. Lokasi dapat diubah pada waktu pembuatan cluster menggunakan
properti cluster dataproc:jupyter.notebook.gcs.dir
.
Menangani file data. Anda dapat menggunakan notebook Jupyter untuk menggunakan file data yang telah diupload ke Cloud Storage. Karena konektor Cloud Storage telah diinstal sebelumnya di cluster Dataproc, Anda dapat mereferensikan file secara langsung di notebook. Berikut adalah contoh yang mengakses file CSV di Cloud Storage:
df = spark.read.csv("gs://bucket/path/file.csv") df.show()
Lihat Fungsi Muat dan Simpan Umum untuk mengetahui contoh PySpark.
Menginstal Jupyter
Instal komponen saat Anda membuat cluster Dataproc. Komponen Jupyter memerlukan aktivasi Gateway Komponen Dataproc.
Konsol
- Aktifkan komponen.
- Di konsol Google Cloud, buka halaman Create a cluster Dataproc. Panel Siapkan cluster dipilih.
- Di bagian Components:
- Di bagian Komponen opsional, pilih komponen Jupyter.
- Di bagian Component Gateway, pilih Enable component gateway (lihat Melihat dan Mengakses URL Component Gateway).
gcloud CLI
Untuk membuat cluster Dataproc yang menyertakan komponen Jupyter, gunakan perintah cluster-name gcloud dataproc clusters create dengan flag --optional-components
.
Contoh versi gambar default terbaru
Contoh berikut menginstal komponen Jupyter di cluster yang menggunakan versi image default terbaru.
gcloud dataproc clusters create cluster-name \ --optional-components=JUPYTER \ --region=region \ --enable-component-gateway \ ... other flags
REST API
Komponen Jupyter
dapat diinstal melalui Dataproc API menggunakan
SoftwareConfig.Component
sebagai bagian dari
permintaan
clusters.create
.
- Tetapkan properti EndpointConfig.enableHttpPortAccess
ke
true
sebagai bagian dari permintaanclusters.create
untuk mengaktifkan koneksi ke UI Web notebook Jupyter menggunakan Component Gateway.
Membuka UI Jupyter dan JupyterLab
Klik link Component Gateway konsol Google Cloud untuk membuka notebook Jupyter atau UI JupyterLab yang berjalan di node master cluster di browser lokal Anda.
Pilih "GCS" atau "Local Disk" untuk membuat Jupyter Notebook baru di salah satu lokasi tersebut.
Memasang GPU ke node master dan pekerja
Anda dapat menambahkan GPU ke node master dan pekerja cluster saat menggunakan notebook Jupyter untuk:
- Lakukan prapemrosesan data di Spark, lalu kumpulkan DataFrame ke master dan jalankan TensorFlow
- Menggunakan Spark untuk mengatur TensorFlow yang berjalan secara paralel
- Menjalankan Tensorflow-on-YARN
- Penggunaan dengan skenario machine learning lainnya yang menggunakan GPU