Ringkasan Dataproc
Mengakses cluster
-
Antarmuka web cluster
Antarmuka web yang tersedia untuk komponen open source Dataproc, dan cara menghubungkannya.
-
Gateway komponen
Gunakan gateway komponen untuk terhubung ke komponen cluster.
-
Workforce identity federation
Izinkan akses tenaga kerja ke Gateway Komponen Dataproc.
-
Konfigurasi jaringan
Konfigurasi jaringan cluster Anda.
-
Menghubungkan ke cluster menggunakan SSH
Gunakan SSH untuk terhubung ke node cluster.
Komponen
-
Ringkasan
Ringkasan komponen cluster.
-
Komponen opsional Anakonda
Instal komponen Anaconda di cluster Anda.
-
Komponen opsional Docker
Instal komponen Docker di cluster Anda.
-
Komponen opsional Flink
Instal komponen Flink di cluster Anda.
-
Komponen opsional HBaseBeta
Instal komponen HBase pada cluster Anda.
-
Komponen opsional Hive WebHCat
Instal komponen Hive WebHCat di cluster Anda.
-
Komponen opsional Hudi
Instal komponen Hudi di cluster Anda.
-
Komponen opsional Jupyter
Instal komponen Jupyter di cluster Anda.
-
Komponen opsional presto
Instal komponen Presto di cluster Anda.
-
Komponen opsional Ranger
Instal komponen Ranger di cluster Anda.
-
Menggunakan Ranger dengan Kerberos
Gunakan komponen Ranger dengan Kerberos di cluster Anda.
-
Mencadangkan dan memulihkan skema Ranger
Ikuti langkah-langkah untuk mencadangkan dan memulihkan skema Ranger.
-
Komponen opsional solr
Instal komponen Solr di cluster Anda.
-
Komponen opsional Trino
Instal komponen Trino di cluster Anda.
-
Komponen opsional Zeppelin
Instal komponen Zeppelin di cluster Anda.
-
Komponen opsional Zookeeper
Instal komponen Zookeeper di cluster Anda.
Opsi Compute
-
Jenis mesin yang didukung
Dengan Dataproc, Anda dapat menentukan jenis mesin kustom untuk workload khusus.
-
Cluster GPU
Gunakan Unit Pemrosesan Grafis (GPU) dengan cluster Dataproc Anda.
-
Solid State Drive Lokal
Pasang SSD lokal ke cluster Dataproc.
-
Platform CPU minimum
Tentukan platform CPU minimum untuk cluster Dataproc Anda.
-
Disk booting Persistent Solid State Drive (PD-SSD)
Buat cluster dengan boot disk SSD persisten.
-
Pekerja sekunder - VM yang dapat dihentikan dan tidak dapat dihentikan
Pahami dan gunakan pekerja sekunder yang dapat dihentikan dan non-preemptible di cluster Dataproc Anda.
Mengonfigurasi dan menjalankan tugas
-
Kehidupan pekerjaan
Memahami throttling tugas Dataproc.
-
Memecahkan masalah penundaan pekerjaan
Pahami dan hindari penyebab umum penundaan pekerjaan.
-
Server Histori Persisten
Pelajari Server Histori Persisten Dataproc.
-
Tugas yang dapat dimulai ulang
Membuat tugas yang dimulai ulang jika gagal. Cocok untuk tugas yang berjalan lama dan {i>streaming<i}.
-
Menjalankan tugas Spark di Dataproc dengan GKE
Buat Dataproc di cluster virtual GKE, lalu jalankan tugas Spark di cluster virtual.
-
Menyesuaikan lingkungan runtime tugas Spark dengan Docker di YARN
Gunakan image Docker untuk menyesuaikan lingkungan tugas Spark Anda.
-
Menjalankan tugas Spark dengan DataprocFileOutputCommitter
Jalankan tugas Spark dengan versi open source
FileOutputCommitter
yang ditingkatkan dan dikonfigurasi dari Dataproc.
Mengonfigurasi cluster
-
Cluster penskalaan otomatis
Pelajari cara menggunakan penskalaan otomatis untuk mengubah ukuran cluster secara otomatis guna memenuhi permintaan workload pengguna.
-
Penempatan Zona Otomatis
Biarkan Dataproc memilih zona untuk cluster Anda.
-
Pembuatan cache cluster
Gunakan penyimpanan dalam cache cluster untuk meningkatkan performa.
-
Metadata cluster
Pelajari metadata cluster Dataproc dan cara menetapkan metadata kustom Anda sendiri.
-
Properti cluster
Gunakan properti konfigurasi untuk komponen open source Dataproc.
-
Rotasi cluster
Rotasi cluster yang merupakan bagian dari kumpulan cluster.
-
Mode Fleksibilitas yang Ditingkatkan
Menjaga tugas tetap berjalan dengan mengubah tempat penyimpanan data perantara.
-
VM Fleksibel
Tentukan jenis VM yang dapat digunakan di cluster jika VM yang Anda minta tidak tersedia.
-
Mode ketersediaan tinggi
Meningkatkan ketahanan HDFS dan YARN terhadap ketidaktersediaan layanan
-
Tindakan inisialisasi
Tentukan tindakan yang akan dijalankan pada semua atau beberapa node cluster saat penyiapan.
-
Konfigurasi jaringan
Konfigurasi jaringan cluster Anda.
-
Menskalakan Cluster
Menambah atau mengurangi jumlah worker node dalam cluster, bahkan saat tugas sedang berjalan.
-
Penghapusan Terjadwal
Hapus cluster Anda setelah periode tertentu atau pada waktu tertentu.
-
Konfigurasi Keamanan
Mengaktifkan fitur keamanan cluster.
-
Komputasi rahasia
Buat cluster dengan Confidential VMs.
-
Kunci enkripsi yang dikelola pelanggan (CMEK)
Mengelola kunci terenkripsi untuk cluster Dataproc dan data tugas.
-
Plugin Ranger Cloud Storage
Gunakan plugin Ranger Cloud Storage dengan Dataproc).
-
Akun layanan Dataproc
Pahami akun layanan Dataproc.
-
Cluster node tunggal
Buat cluster sandbox ringan dengan hanya satu node.
-
Cluster node tenant tunggal
Buat cluster pada node tenant tunggal.
-
Bucket suhu dan staging
Pelajari staging Dataproc dan bucket sementara.
Konektor
-
Konektor BigQuery
Gunakan BigQuery untuk Apache Hadoop di cluster Dataproc Anda.
-
Contoh kode konektor BigQuery
Lihat contoh kode BigQuery.
-
Bigtable dengan Dataproc
Gunakan API yang kompatibel dengan Bigtable Apache HBase dengan cluster Dataproc Anda.
-
Konektor Cloud Storage
Menggunakan konektor Cloud Storage.
-
Konektor BigQuery Hive
Pelajari konektor Hive BigQuery.
-
Pub/Sub Lite dengan Dataproc
Menggunakan Pub/Sub Lite dengan Dataproc).
Identity and Access Management (IAM)
-
Izin Dataproc dan peran IAM
Siapkan peran IAM agar pengguna dan grup dapat mengakses resource Dataproc project Anda.
-
Prinsip dan peran Dataproc
Pahami akun utama Dataproc dan peran yang diperlukan untuk membuat, mengelola, dan menjalankan tugas di cluster.
-
IAM Perincian Dataproc
Menyiapkan izin khusus cluster yang terperinci.
-
Autentikasi Cluster Pribadi Dataproc
Menyiapkan autentikasi cluster pribadi.
-
Multi-tenancy berbasis akun layanan Dataproc
Siapkan cluster multi-tenant.
-
Mengelola resource Dataproc menggunakan batasan khusus
Siapkan batasan kustom untuk mengelola resource Dataproc.
Endpoint Regional Dataproc
Pembuatan Versi
-
Ringkasan
Versi software yang digunakan pada cluster Dataproc dan cara memilihnya.
-
Versi rilis 2.1.x
Gambar Dataproc versi 2.1.
-
Versi rilis 2.0.x
Gambar Dataproc versi 2.0.
-
Versi rilis 1.5.x
Gambar Dataproc versi 1.5.
-
Versi rilis 1.4.x
Gambar Dataproc versi 1.4.
-
Daftar versi gambar cluster Dataproc
Daftar versi yang saat ini didukung di cluster Dataproc.
Template Alur Kerja
-
Ringkasan
Pelajari template alur kerja.
-
Alur kerja pemantauan dan proses debug
Cara memantau dan men-debug alur kerja.
-
Parameterisasi
Pelajari cara membuat parameter template alur kerja.
-
Menggunakan file YAML
Pelajari cara menggunakan file YAML di alur kerja Anda.
-
Menggunakan pemilih cluster
Pelajari cara menggunakan pemilih cluster dalam alur kerja Anda.
-
Gunakan alur kerja inline
Pelajari cara membuat dan menjalankan alur kerja inline.
-
Gunakan alur kerja
Pelajari cara menyiapkan dan menjalankan alur kerja.
-
Solusi penjadwalan alur kerja
Jalankan alur kerja dengan Cloud Scheduler, Cloud Functions, dan Cloud Composer.