Mengamankan lingkungan Dataproc sangat penting untuk melindungi data sensitif dan mencegah akses tidak sah. Dokumen ini menguraikan praktik terbaik utama untuk meningkatkan postur keamanan Dataproc Anda, termasuk rekomendasi untuk keamanan jaringan, Identity and Access Management, enkripsi, dan konfigurasi cluster yang aman.
Keamanan jaringan
Men-deploy Dataproc di VPC pribadi. Buat Virtual Private Cloud khusus untuk cluster Dataproc Anda, yang mengisolasinya dari jaringan lain dan internet publik.
Gunakan IP pribadi. Untuk melindungi cluster Dataproc Anda dari eksposur ke internet publik, gunakan alamat IP pribadi untuk meningkatkan keamanan dan isolasi.
Mengonfigurasi aturan firewall. Terapkan aturan firewall yang ketat untuk mengontrol traffic ke dan dari cluster Dataproc Anda. Hanya izinkan port dan protokol yang diperlukan.
Gunakan peering jaringan. Untuk isolasi yang lebih baik, buat Peering Jaringan VPC antara VPC Dataproc dan VPC sensitif lainnya untuk komunikasi yang terkontrol.
Aktifkan Gateway Komponen. Aktifkan Gateway Komponen Dataproc saat Anda membuat cluster untuk mengakses UI ekosistem Hadoop dengan aman, seperti UI server YARN, HDFS, atau Spark, bukan membuka port firewall.
Identity and Access Management
Isolasi izin. Gunakan akun layanan bidang data yang berbeda untuk cluster yang berbeda. Tetapkan ke akun layanan hanya izin yang diperlukan cluster untuk menjalankan beban kerjanya.
Hindari mengandalkan akun layanan default Google Compute Engine (GCE). Jangan gunakan akun layanan default untuk cluster Anda.
Patuhi prinsip hak istimewa terendah. Berikan hanya izin minimum yang diperlukan kepada pengguna dan akun layanan Dataproc.
Terapkan kontrol akses berbasis peran (RBAC). Pertimbangkan untuk menetapkan izin IAM untuk setiap cluster.
Gunakan peran khusus. Buat peran IAM khusus yang terperinci dan disesuaikan dengan fungsi tugas tertentu dalam lingkungan Dataproc Anda.
Tinjau secara rutin. Audit izin dan peran IAM secara rutin untuk mengidentifikasi dan menghapus hak istimewa yang berlebihan atau tidak digunakan.
Enkripsi
Mengenkripsi data dalam penyimpanan. Untuk enkripsi data dalam penyimpanan, gunakan Cloud Key Management Service (KMS) atau Kunci Enkripsi yang Dikelola Pelanggan (CMEK). Selain itu, gunakan kebijakan organisasi untuk menerapkan enkripsi data dalam penyimpanan untuk pembuatan cluster.
Mengenkripsi data dalam pengiriman. Aktifkan SSL/TLS untuk komunikasi antara komponen Dataproc (dengan mengaktifkan Mode Aman Hadoop) dan layanan eksternal. Hal ini melindungi data yang sedang bergerak.
Waspadai data sensitif. Berhati-hatilah saat menyimpan dan meneruskan data sensitif seperti PII atau sandi. Jika diperlukan, gunakan solusi enkripsi dan pengelolaan secret.
Mengamankan konfigurasi cluster
Lakukan autentikasi menggunakan Kerberos. Untuk mencegah akses yang tidak sah ke resource cluster, terapkan Hadoop Secure Mode menggunakan autentikasi Kerberos. Untuk mengetahui informasi selengkapnya, lihat Mengamankan multi-tenancy melalui Kerberos.
Gunakan sandi akun utama root yang kuat dan penyimpanan berbasis KMS yang aman. Untuk cluster yang menggunakan Kerberos, Dataproc akan otomatis mengonfigurasi fitur hardening keamanan untuk semua komponen open source yang berjalan di cluster.
Aktifkan login OS. Aktifkan Login OS untuk keamanan tambahan saat mengelola node cluster menggunakan SSH.
Pisahkan bucket staging dan sementara di Google Cloud Storage (GCS). Untuk memastikan isolasi izin, pisahkan bucket staging dan temp untuk setiap cluster Dataproc.
Gunakan Secret Manager untuk menyimpan kredensial. Secret Manager dapat mengamankan data sensitif Anda, seperti kunci API, sandi, dan sertifikat. Gunakan untuk mengelola, mengakses, dan mengaudit secret Anda di seluruh Google Cloud.
Gunakan batasan organisasi kustom. Anda dapat menggunakan kebijakan organisasi kustom untuk mengizinkan atau menolak operasi tertentu di cluster Dataproc. Misalnya, jika permintaan untuk membuat atau memperbarui cluster gagal memenuhi validasi batasan kustom seperti yang ditetapkan oleh kebijakan organisasi Anda, permintaan akan gagal dan error akan ditampilkan kepada pemanggil.
Langkah selanjutnya
Pelajari fitur keamanan Dataproc lainnya lebih lanjut:
- Mengamankan multi-tenancy melalui akun layanan
- Menyiapkan Confidential VM dengan enkripsi memori inline
- Mengaktifkan layanan otorisasi di setiap VM cluster