Dataproc Hub memungkinkan Anda memanfaatkan Vertex AI Workbench dan Dataproc untuk menjalankan tugas pemrosesan data dan ML interaktif dalam skala besar menggunakan notebook Jupyter dan ekosistem Hadoop dan Spark.
Notebook Dataproc Hub adalah notebook satu pengguna yang dikelola administrator, yang berjalan di cluster JupyterLab Dataproc yang dibuat dan berjalan di project pengguna.
Dataproc Hub memanfaatkan JupyterHub untuk:
- Membawa konsistensi di seluruh organisasi dengan memungkinkan administrator membuat daftar template notebook yang diseleksi untuk berbagai grup pengguna data dan ML.
- Percepat pembuatan notebook dengan menyediakan lingkungan yang telah dikonfigurasi sebelumnya kepada pengguna data dan ML yang cocok dengan persyaratan software dan hardware mereka.
Dataproc Hub menyediakan antarmuka terpisah untuk administrator dan pengguna:
- Administrator menggunakan halaman Dataproc→Workbench→Notebook yang Dikelola Pengguna di konsol Google Cloud untuk membuat instance Dataproc Hub. Setiap instance hub berisi kumpulan lingkungan notebook yang telah ditentukan sebelumnya dan ditentukan oleh file konfigurasi cluster YAML.
- Pengguna data dan ML menggunakan UI Notebooks→Instances di konsol Google Cloud untuk memilih lingkungan notebook yang telah ditentukan untuk membuat server notebook di cluster Dataproc mereka.
- Pengguna tanpa akses konsol dapat mengakses instance Dataproc Hub untuk membuat cluster Dataproc dari browser web mereka menggunakan URL instance Dataproc Hub yang disediakan oleh administrator.
Kasus penggunaan Dataproc Hub:
- Pengguna data dan ML diatur dalam grup dengan persyaratan software dan hardware umum (pengguna dapat ditempatkan dalam beberapa grup)
- Akses konsol Dataproc dibatasi: Pengguna tidak memiliki akses ke Dataproc di konsol Google Cloud
Fitur Dataproc Hub:
- Lingkungan pengguna standar
- Isolasi cluster dan notebook: anggota grup tidak diberi akses yang mudah ke cluster dan notebook anggota di grup lain
Untuk informasi selengkapnya
- Admin: Mengonfigurasi Dataproc Hub
- Pengguna: Menggunakan Dataproc Hub