Tutorial ini mencakup panduan Cloud Shell yang menggunakan library klien Google Cloud untuk Python untuk memanggil Dataproc gRPC API secara terprogram untuk membuat cluster dan mengirim tugas ke cluster.
Bagian berikut menjelaskan pengoperasian kode panduan yang terdapat dalam repositori GitHub GoogleCloudPlatform/python-dataproc.
Menjalankan panduan Cloud Shell
Klik Open in Cloud Shell untuk menjalankan panduan.
Memahami kode
Kredensial Default Aplikasi
Panduan Cloud Shell dalam tutorial ini menyediakan autentikasi menggunakan kredensial project Google Cloud Anda. Saat Anda menjalankan kode secara lokal, praktik yang direkomendasikan adalah menggunakan kredensial akun layanan untuk mengautentikasi kode Anda.
Membuat cluster Dataproc
Nilai berikut ditetapkan untuk membuat cluster:
- Project tempat cluster akan dibuat
- Region tempat cluster akan dibuat
- Nama cluster
- Konfigurasi cluster, yang menentukan satu master dan dua pekerja utama
Setelan konfigurasi default digunakan untuk setelan cluster yang tersisa. Anda dapat mengganti setelan konfigurasi cluster default. Misalnya, Anda dapat menambahkan VM sekunder (default = 0) atau menentukan jaringan VPC non-default untuk cluster tersebut. Untuk mengetahui informasi selengkapnya, lihat CreateCluster.
Mengirim tugas
Nilai berikut ditetapkan untuk mengirimkan tugas:
- Project tempat cluster akan dibuat
- Region tempat cluster akan dibuat
- Konfigurasi tugas, yang menentukan nama cluster dan filepath (URI) Cloud Storage untuk tugas PySpark
Lihat SubmitJob untuk informasi selengkapnya.
Menghapus cluster
Nilai berikut ditetapkan untuk menghapus cluster:
- Project tempat cluster akan dibuat
- Region tempat cluster akan dibuat
- Nama cluster
Untuk mengetahui informasi selengkapnya, lihat DeleteCluster.