Untuk mendapatkan hasil maksimal dari Dataproc, sebaiknya pahami dasar-dasar pembangunannya. Panduan ini menjelaskan konsep dan fitur inti Dataproc serta manfaat yang diberikan fitur ini.
Model berbasis cluster
Ini adalah cara standar yang berfokus pada infrastruktur untuk menggunakan Dataproc. Layanan ini memberi Anda kontrol penuh atas serangkaian virtual machine khusus untuk tugas pemrosesan data Anda.
- Cluster: Cluster adalah mesin pemrosesan data pribadi Anda, yang terdiri dari Google Cloud virtual machine. Anda membuat cluster untuk menjalankan framework open source seperti Apache Spark dan Apache Hadoop. Anda memiliki kontrol penuh atas ukuran cluster, jenis mesin, dan konfigurasi.
- Tugas: Tugas adalah tugas tertentu, seperti skrip PySpark atau kueri Hadoop. Daripada menjalankan tugas secara langsung di cluster, Anda mengirimkan tugas ke layanan Dataproc, yang mengelola eksekusi tugas untuk Anda. Anda dapat mengirimkan beberapa tugas ke cluster.
- Template Alur Kerja: Template alur kerja adalah definisi yang dapat digunakan kembali yang mengorkestrasi serangkaian tugas (alur kerja). Alat ini dapat menentukan dependensi antar-tugas, misalnya untuk menjalankan tugas machine learning hanya setelah tugas pembersihan data berhasil diselesaikan. Alur kerja yang dibuat dari template dapat berjalan di cluster yang ada atau di cluster sementara (efemeral) yang dibuat untuk menjalankan alur kerja, lalu dihapus setelah alur kerja selesai. Anda dapat menggunakan template untuk menjalankan alur kerja yang ditentukan kapan pun diperlukan.
- Kebijakan penskalaan otomatis: Kebijakan penskalaan otomatis berisi aturan yang Anda tentukan untuk menambahkan atau menghapus mesin pekerja dari cluster berdasarkan beban kerja cluster guna mengoptimalkan biaya dan performa cluster secara dinamis.
Model serverless
Serverless untuk Apache Spark adalah model Dataproc modern dengan eksekusi otomatis. Layanan ini memungkinkan Anda menjalankan pekerjaan tanpa menyediakan, mengelola, atau menskalakan infrastruktur yang mendasarinya: Serverless untuk Apache Spark menangani detailnya untuk Anda.
- Batch: Batch (juga disebut workload batch) adalah padanan tugas Dataproc tanpa server. Anda mengirimkan kode, seperti tugas Spark, ke layanan. Serverless untuk Apache Spark menyediakan resource yang diperlukan sesuai permintaan, menjalankan tugas, lalu menghentikannya. Anda tidak membuat atau mengelola resource cluster atau tugas; layanan ini melakukan pekerjaan untuk Anda.
- Sesi interaktif: Sesi interaktif menyediakan lingkungan live sesuai permintaan untuk analisis data eksploratif, biasanya dalam notebook Jupyter. Sesi interaktif memberikan kemudahan ruang kerja sementara tanpa server yang dapat Anda gunakan untuk menjalankan kueri dan mengembangkan kode tanpa harus menyediakan dan mengelola resource cluster dan notebook.
- Template sesi: Template sesi adalah konfigurasi yang dapat digunakan kembali yang dapat Anda gunakan untuk menentukan sesi interaktif. Template berisi setelan sesi, seperti properti Spark dan dependensi library. Anda menggunakan template untuk membuat lingkungan sesi interaktif untuk pengembangan, biasanya dalam notebook Jupyter.
Layanan Metastore
Dataproc menyediakan layanan terkelola untuk menangani metadata, yaitu data tentang data Anda.
- Metastore: Metastore berfungsi sebagai katalog pusat untuk skema data, seperti nama tabel dan kolom serta jenis data. Metastore memungkinkan berbagai layanan, cluster, dan tugas memahami struktur data Anda. Biasanya, katalog disimpan di Cloud Storage.
- Federasi: Federasi metadata adalah fitur lanjutan yang memungkinkan Anda mengakses dan mengkueri data dari beberapa metastore seolah-olah Anda mengakses satu metastore terpadu.
Lingkungan notebook dan pengembangan
Notebook dan IDE Dataproc ditautkan ke lingkungan pengembangan terintegrasi tempat Anda dapat menulis dan mengeksekusi kode.
- BigQuery Studio & Workbench: Ini adalah lingkungan notebook dan analisis terpadu. Dengan begitu, Anda dapat menulis kode (misalnya di notebook Jupyter) dan menggunakan cluster Dataproc atau sesi serverless sebagai mesin backend yang canggih untuk menjalankan kode Anda pada set data besar.
- Plugin Dataproc JupyterLab: Ekstensi JupyterLab resmi ini berfungsi sebagai panel kontrol untuk Dataproc di dalam lingkungan notebook Anda. Fitur ini menyederhanakan alur kerja Anda dengan memungkinkan Anda menjelajahi, membuat, dan mengelola cluster serta mengirimkan tugas tanpa harus keluar dari antarmuka Jupyter. Pelajari Lebih Lanjut
- Konektor Python Dataproc Spark Connect: Library Python ini menyederhanakan proses penggunaan Spark Connect dengan Dataproc. Library ini menangani autentikasi dan konfigurasi endpoint, sehingga mempermudah koneksi lingkungan Python lokal Anda, seperti notebook atau IDE, ke cluster Dataproc jarak jauh untuk pengembangan interaktif. Pelajari Lebih Lanjut
Penyesuaian lingkungan
Dataproc menawarkan alat dan komponen untuk menyesuaikan lingkungan Anda agar sesuai dengan kebutuhan tertentu. Bagian Utilitas di konsol Google Cloud berisi alat yang berguna untuk menyesuaikan lingkungan Dataproc Anda.