Tutorial ini mencakup panduan Cloud Shell yang menggunakan library klien Google Cloud untuk Python untuk memanggil Dataproc gRPC API secara terprogram untuk membuat cluster dan mengirimkan tugas ke cluster.
Bagian berikut menjelaskan operasi kode panduan yang terdapat di repositori GitHub GoogleCloudPlatform/python-dataproc.
Menjalankan panduan Cloud Shell
Klik Open in Cloud Shell untuk menjalankan panduan.
Memahami kode
Kredensial Default Aplikasi
Panduan Cloud Shell dalam tutorial ini memberikan autentikasi menggunakan kredensial project Google Cloud Anda. Saat Anda menjalankan kode secara lokal, praktik yang direkomendasikan adalah menggunakan kredensial akun layanan untuk mengautentikasi kode Anda.
Membuat cluster Dataproc
Nilai berikut ditetapkan untuk membuat cluster:
- Project tempat cluster akan dibuat
- Region tempat cluster akan dibuat
- Nama cluster
- Konfigurasi cluster, yang menentukan satu master dan dua pekerja utama
Setelan konfigurasi default digunakan untuk setelan cluster lainnya. Anda dapat mengganti setelan konfigurasi cluster default. Misalnya, Anda dapat menambahkan VM sekunder (default = 0) atau menentukan jaringan VPC non-default untuk cluster. Untuk mengetahui informasi selengkapnya, lihat CreateCluster.
Mengirim tugas
Nilai berikut ditetapkan untuk mengirimkan tugas:
- Project tempat cluster akan dibuat
- Region tempat cluster akan dibuat
- Konfigurasi tugas, yang menentukan nama cluster dan jalur file (URI) Cloud Storage dari tugas PySpark
Lihat SubmitJob untuk mengetahui informasi selengkapnya.
Menghapus cluster
Nilai berikut ditetapkan untuk menghapus cluster:
- Project tempat cluster akan dibuat
- Region tempat cluster akan dibuat
- Nama cluster
Untuk mengetahui informasi selengkapnya, lihat DeleteCluster.