Dataproc Hub adalah server JupyterHub yang disesuaikan. Admin mengonfigurasi dan membuat instance Dataproc Hub yang dapat menghasilkan cluster Dataproc pengguna tunggal untuk menghosting lingkungan notebook Jupyter dan JupyterLab (lihat Menggunakan Dataproc Hub).
Tujuan
Tentukan konfigurasi cluster Dataproc (atau gunakan salah satu file konfigurasi yang telah ditentukan).
Menetapkan variabel lingkungan instance Dataproc Hub.
Buat instance Dataproc Hub.
Sebelum memulai
Jika belum melakukannya, buat project Google Cloud dan bucket Cloud Storage.
Menyiapkan project
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Make sure that billing is enabled for your Google Cloud project.
-
Aktifkan API Dataproc, Compute Engine, and Cloud Storage.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Make sure that billing is enabled for your Google Cloud project.
-
Aktifkan API Dataproc, Compute Engine, and Cloud Storage.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
Membuat bucket Cloud Storage di project Anda untuk menyimpan data yang digunakan dalam tutorial ini.
- Di Konsol Google Cloud, buka halaman Bucket Cloud Storage.
- Klik Buat bucket.
- Di halaman Buat bucket, masukkan informasi bucket Anda. Untuk melanjutkan ke
langkah berikutnya, klik Lanjutkan.
- Untuk Beri nama bucket, masukkan nama yang memenuhi persyaratan penamaan bucket.
-
Untuk Pilih tempat untuk menyimpan data, lakukan tindakan berikut:
- Pilih opsi Jenis lokasi.
- Pilih opsi Lokasi.
- Untuk Memilih kelas penyimpanan default untuk data Anda, pilih kelas penyimpanan.
- Untuk Memilih cara mengontrol akses ke objek, pilih opsi Kontrol akses.
- Untuk Setelan lanjutan (opsional), tentukan metode enkripsi, kebijakan retensi, atau label bucket.
- Klik Buat.
Menentukan konfigurasi cluster
Instance Dataproc Hub membuat cluster dari nilai konfigurasi yang terdapat dalam file konfigurasi cluster YAML.
Konfigurasi cluster Anda dapat menentukan fitur atau komponen apa pun yang tersedia untuk cluster Dataproc (seperti jenis mesin, tindakan inisialisasi, dan komponen opsional). Versi image cluster harus 1.4.13 atau yang lebih tinggi. Mencoba memunculkan cluster dengan versi image yang lebih rendah dari 1.4.13 akan menyebabkan error dan gagal.
Contoh file konfigurasi cluster YAML
clusterName: cluster-name config: gceClusterConfig: metadata: 'PIP_PACKAGES': 'google-cloud-core>=1.3.0 google-cloud-storage>=1.28.1' initializationActions: - executableFile: gs://dataproc-initialization-actions/python/pip-install.sh softwareConfig: imageVersion: 1.5-ubuntu18 optionalComponents: - ANACONDA - JUPYTER
Setiap konfigurasi harus disimpan di Cloud Storage. Anda dapat membuat dan menyimpan beberapa file konfigurasi guna memberikan pilihan kepada pengguna saat mereka menggunakan Dataproc Hub untuk membuat lingkungan notebook cluster Dataproc.
Ada dua cara untuk membuat file konfigurasi cluster YAML:
Membuat file konfigurasi cluster YAML dari konsol
- Buka halaman Create a cluster di Konsol Google Cloud, lalu pilih dan isi kolom untuk menentukan jenis cluster yang akan dihasilkan Dataproc Hub untuk pengguna.
- Di bagian bawah panel kiri, pilih "Equivalent REST".
- Salin blok JSON yang dihasilkan, dengan mengecualikan baris permintaan POST di awal, lalu tempel blok JSON ke pengonversi JSON-ke-YAML online (telusuri "Konversi JSON ke YAML").
- Salin YAML yang dikonversi ke file cluster-config-filename.yaml lokal.
Mengekspor file konfigurasi cluster YAML dari cluster yang ada
- Buat cluster yang sesuai dengan kebutuhan Anda.
- Ekspor konfigurasi cluster ke file cluster-config-filename.yaml lokal.
gcloud dataproc clusters export cluster-name \ --destination cluster-config-filename.yaml \ --region region
Menyimpan file konfigurasi YAML di Cloud Storage
Salin file konfigurasi cluster YAML lokal ke bucket Cloud Storage Anda.
gsutil cp cluster-config-filename.yaml gs://bucket-name/
Menetapkan variabel lingkungan instance Dataproc Hub
Administrator dapat menetapkan variabel lingkungan hub yang tercantum dalam tabel di bawah, untuk menetapkan atribut cluster Dataproc yang akan dijalankan oleh pengguna hub.
Variabel | Deskripsi | Contoh |
---|---|---|
NOTEBOOKS_LOCATION | Bucket Cloud Storage atau folder bucket yang berisi notebook pengguna. Awalan `gs://` bersifat opsional. Default: Bucket staging Dataproc. | gs://bucket-name/ |
DATAPROC_CONFIGS | Daftar string jalur Cloud Storage yang dipisahkan koma ke
file konfigurasi cluster YAML. Awalan `gs://` bersifat opsional. Default: gs://dataproc-spawner-dist/example-configs/ . yang berisi example-cluster.yaml dan example-single-node.yaml yang telah ditentukan.
|
gs://cluster-config-filename.yaml |
DATAPROC_LOCATIONS_LIST | Akhiran zona di region tempat instance Dataproc Hub berada. Pengguna dapat memilih salah satu zona ini sebagai zona tempat cluster Dataproc mereka akan muncul. Default: "b". | b,c,d |
DATAPROC_DEFAULT_SUBNET | Subnet tempat instance Dataproc Hub akan menghasilkan cluster Dataproc. Default: subnet instance Dataproc Hub. | https://www.googleapis.com/compute/v1/projects/project-id/regions/region/subnetworks/subnet-name |
DATAPROC_SERVICE_ACCOUNT | Akun layanan tempat VM Dataproc akan dijalankan. Default: Jika tidak ditetapkan, akun layanan Dataproc default akan digunakan. | service-account@project-id.iam.gserviceaccount.com |
SPAWNER_DEFAULT_URL | Apakah akan menampilkan UI Jupyter atau JupyterLab pada cluster Dataproc yang dihasilkan secara default. Default: "/lab". | `/` atau `/lab`, masing-masing untuk Jupyter atau JupyterLab. |
DATAPROC_ALLOW_CUSTOM_CLUSTERS | Apakah akan mengizinkan pengguna untuk menyesuaikan cluster Dataproc mereka. Default: false. | "true" atau "false" |
DATAPROC_MACHINE_TYPES_LIST | Daftar jenis mesin yang diizinkan untuk dipilih pengguna bagi cluster Dataproc yang mereka buat, jika penyesuaian cluster (DATAPROC_ALLOW_CUSTOM_CLUSTERS) diaktifkan. Default: kosong (semua jenis mesin diizinkan). | n1-standard-4,n1-standard-8,e2-standard-4,n1-highcpu-4 |
NOTEBOOKS_EXAMPLES_LOCATION | Jalur Cloud Storage ke bucket notebook atau folder bucket yang akan didownload ke cluster Dataproc yang dihasilkan saat cluster dimulai. Default: kosong. | gs://bucket-name/ |
Menyetel variabel lingkungan hub
Ada dua cara untuk menetapkan variabel lingkungan hub:
Menetapkan variabel lingkungan hub dari konsol
Saat membuat instance Dataproc Hub dari tab User-Managed Notebooks di halaman Dataproc→Workbench di Konsol Google Cloud, Anda dapat mengklik tombol Isi untuk membuka formulir Isi Dataproc Hub yang memungkinkan Anda menetapkan setiap variabel lingkungan.
Menetapkan variabel lingkungan hub dalam file teks
Buat file. Anda dapat menggunakan editor teks untuk menetapkan variabel lingkungan instance Dataproc Hub dalam file lokal. Atau, Anda dapat membuat file dengan menjalankan perintah berikut setelah mengisi nilai placeholder dan mengubah atau menambahkan variabel beserta nilainya.
cat <<EOF > environment-variables-file DATAPROC_CONFIGS=gs://bucket/cluster-config-filename.yaml NOTEBOOKS_LOCATION=gs://bucket/notebooks DATAPROC_LOCATIONS_LIST=b,c EOF
Simpan file di Cloud Storage. Salin file variabel lingkungan instance Dataproc Hub lokal Anda ke bucket Cloud Storage.
gsutil cp environment-variable-filename gs://bucket-name/folder-name/
Menetapkan peran Identity and Access Management (IAM)
Dataproc Hub mencakup identitas berikut dengan kemampuan berikut:
- Administrator: membuat instance Dataproc Hub
- Pengguna data dan ML: mengakses UI Dataproc Hub
- Akun layanan Dataproc Hub: mewakili Dataproc Hub
- Akun layanan Dataproc: mewakili cluster Dataproc yang dibuat oleh Dataproc Hub.
Setiap identitas memerlukan peran atau izin tertentu untuk melakukan tugas terkaitnya. Tabel di bawah ini merangkum peran dan izin IAM yang diperlukan oleh setiap identitas.
Identitas | Jenis | Peran atau izin |
---|---|---|
Administrator Dataproc Hub | Akun Pengguna atau Layanan | roles/notebooks.admin |
Pengguna Dataproc Hub | Pengguna | notebooks.instances.use, dataproc.clusters.use |
Hub Dataproc | Akun layanan | roles/dataproc.hubAgent |
Dataproc | Akun layanan | roles/dataproc.worker |
Membuat instance Dataproc Hub
Sebelum memulai: Untuk membuat instance Dataproc Hub dari Konsol Google Cloud, akun pengguna Anda harus memiliki izin
compute.instances.create
. Selain itu, akun layanan instance—akun layanan default Compute Engine atau akun layanan yang ditentukan pengguna yang tercantum dalam IAM & admin > Akun Layanan (lihat akun layanan VM Dataproc)— harus memiliki iziniam.serviceAccounts.actAs
.Buka halaman Dataproc→Workbench di Konsol Google Cloud, lalu pilih tab User-Managed Notebooks.
Jika belum dipilih sebelumnya sebagai filter, klik kotak Filter, lalu pilih **Environment:Dataproc Hub"".
Klik New Notebook→Dataproc Hub.
Di halaman Buat notebook yang dikelola pengguna, berikan informasi berikut:
- Nama notebook: Nama instance Dataproc Hub.
- Region: Pilih region untuk instance Dataproc Hub. Cluster Dataproc yang dihasilkan oleh instance Dataproc Hub ini juga akan dibuat di region ini.
- Zone: Memilih zona di dalam region yang dipilih.
- Lingkungan:
Environment
: PilihDataproc Hub
.Select a script to run after creation
(opsional): Anda dapat menyisipkan atau menjelajahi dan memilih skrip tindakan inisialisasi atau yang dapat dieksekusi untuk dijalankan di cluster Dataproc yang dihasilkan.Populate Dataproc Hub (optional)
: Klik AutoFill untuk membuka formulir yang memungkinkan Anda menetapkan setiap variabel lingkungan hub (lihat Menetapkan variabel lingkungan instance Dataproc Hub untuk mengetahui deskripsi setiap variabel). Dataproc menggunakan nilai default untuk setiap variabel lingkungan yang tidak ditetapkan. Sebagai alternatif, Anda dapat menetapkan pasangan Metadatakey:value
untuk menetapkan variabel lingkungan (lihat item berikutnya).Metadata
:- Jika Anda membuat file teks yang berisi setelan variabel lingkungan hub (lihat Menyetel variabel lingkungan hub), berikan nama file sebagai
key
dan lokasi Cloud Storagegs://bucket-name/folder-name/environment-variable-filename
dari file tersebut sebagaivalue
. Dataproc menggunakan nilai default untuk setiap variabel lingkungan yang tidak ditetapkan.
- Jika Anda membuat file teks yang berisi setelan variabel lingkungan hub (lihat Menyetel variabel lingkungan hub), berikan nama file sebagai
- Konfigurasi mesin:
Machine Type
: Pilih machine type Compute Engine.- Tetapkan opsi konfigurasi mesin lainnya.
- Opsi Lainnya:
- Anda dapat memperluas dan menetapkan atau mengganti nilai default di bagian Disks, Networking, Permission, Security, serta Upgrade lingkungan dan kesehatan sistem.
- Klik Create untuk meluncurkan instance Dataproc Hub.
Link Buka JupyterLab untuk instance Dataproc Hub akan aktif setelah instance dibuat. Pengguna mengklik link ini untuk membuka halaman server JupyterHub guna mengonfigurasi dan membuat cluster Dataproc JupyterLab (lihat Menggunakan Dataproc Hub).
Pembersihan
Menghapus instance Dataproc Hub
- Untuk menghapus instance Dataproc Hub Anda:
gcloud compute instances delete --project=${PROJECT} ${INSTANCE_NAME}
Menghapus bucket
- Untuk menghapus bucket Cloud Storage yang Anda buat di Sebelum memulai, termasuk file data yang disimpan di bucket:
gsutil -m rm -r gs://${BUCKET_NAME}