Anda dapat menginstal komponen tambahan seperti Jupyter saat membuat cluster Dataproc menggunakan fitur Komponen opsional. Halaman ini menjelaskan komponen Jupyter.
Komponen Jupyter adalah notebook berbasis Web untuk analisis data interaktif dan mendukung UI Web JupyterLab. UI Web Jupyter tersedia di port 8123
pada node master pertama cluster.
Notebook Jupyter menyediakan kernel Python untuk menjalankan kode Spark, dan kernel PySpark. Secara default, notebook disimpan di Cloud Storage dalam bucket staging Dataproc, yang ditentukan oleh pengguna atau dibuat secara otomatis saat cluster dibuat. Lokasi dapat diubah pada waktu pembuatan cluster melalui
properti cluster dataproc:jupyter.notebook.gcs.dir
.
Instal Jupyter
Instal komponen saat Anda membuat cluster Dataproc. Komponen Jupyter memerlukan aktivasi Gateway Komponen Dataproc. Saat menggunakan image versi 1.5, penginstalan komponen Jupyter juga memerlukan penginstalan komponen Anaconda.
Konsol
- Aktifkan komponen.
- Di Konsol Google Cloud, buka halaman Buat cluster Dataproc. Panel Siapkan cluster dipilih.
- Di bagian Komponen:
- Di bagian Komponen opsional, pilih komponen Jupyter, dan, jika menggunakan gambar versi 1.5, komponen Anaconda.
- Pada Gateway Komponen, pilih Aktifkan gateway komponen (lihat Melihat dan Mengakses URL Gateway Komponen).
gcloud CLI
Untuk membuat cluster Dataproc yang menyertakan komponen Jupyter, gunakan perintah cluster-name gcloud dataproc cluster create dengan flag --optional-components
.
Contoh versi gambar default terbaru
Contoh berikut menginstal komponen Jupyter pada cluster yang menggunakan versi gambar default terbaru.
gcloud dataproc clusters create cluster-name \ --optional-components=JUPYTER \ --region=region \ --enable-component-gateway \ ... other flags
Contoh versi image 1.5
Contoh versi image 1.5 berikut menginstal komponen Jupyter dan Anaconda (penginstalan komponen Anaconda diperlukan saat menggunakan image versi 1.5).
gcloud dataproc clusters create cluster-name \ --optional-components=ANACONDA,JUPYTER \ --region=region \ --image-version=1.5 \ --enable-component-gateway \ ... other flags
REST API
Komponen Jupyter
dapat diinstal melalui Dataproc API menggunakan
SoftwareConfig.Component
sebagai bagian dari permintaan
clusters.create
(penginstalan komponen Anaconda juga diperlukan saat menggunakan image versi 1.5).
- Tetapkan properti EndpointConfig.enableHttpPortAccess
ke
true
sebagai bagian dari permintaanclusters.create
agar dapat terhubung ke UI Web notebook Jupyter menggunakan Gateway Komponen.
Buka UI Jupyter dan JupyterLab
Klik link Gateway Komponen Google Cloud Console untuk membuka notebook Jupyter atau UI JupyterLab yang berjalan di node master cluster di browser lokal.
Pilih "GCS" atau "Local Disk" untuk membuat Notebook Jupyter baru di salah satu lokasi.
Memasang GPU ke Node Master dan/atau Pekerja
Anda dapat menambahkan GPU ke node master dan pekerja cluster saat menggunakan notebook Jupyter untuk:
- Lakukan prapemrosesan data di Spark, lalu kumpulkan DataFrame ke master dan jalankan TensorFlow
- Menggunakan Spark untuk mengorkestrasi TensorFlow berjalan secara paralel
- Jalankan Tensorflow-on-YARN
- Gunakan dengan skenario machine learning lain yang menggunakan GPU