Dataproc adalah layanan Spark dan Hadoop terkelola yang memungkinkan Anda memanfaatkan alat data open source untuk batch processing, pembuatan kueri, streaming, dan machine learning. Otomatisasi Dataproc membantu Anda membuat cluster dengan cepat, mengelolanya dengan mudah, dan menghemat biaya dengan menonaktifkan cluster saat Anda tidak membutuhkannya. Dengan lebih sedikit waktu dan uang yang dihabiskan untuk administrasi, Anda dapat berfokus pada pekerjaan dan data Anda.
Mengapa menggunakan Dataproc?
Jika dibandingkan dengan produk lokal tradisional dan layanan cloud pesaing, Dataproc memiliki sejumlah keunggulan unik untuk cluster yang terdiri dari tiga hingga ratusan node:
- Biaya rendah — Dataproc dikenakan biaya hanya 1 sen per CPU virtual di cluster Anda per jam, selain resource Cloud Platform lain yang Anda gunakan. Selain harga yang rendah ini, cluster Dataproc dapat menyertakan preemptible instance yang memiliki harga komputasi lebih rendah, sehingga mengurangi biaya lebih lanjut. Alih-alih membulatkan penggunaan Anda ke jam terdekat, Dataproc hanya akan menagih biaya untuk apa yang benar-benar Anda gunakan dengan penagihan per detik dan periode penagihan yang rendah, yaitu satu menit.
- Super cepat — Tanpa menggunakan Dataproc, diperlukan waktu sekitar 5 hingga 30 menit untuk membuat cluster Spark dan Hadoop secara lokal atau melalui penyedia IaaS. Sebagai perbandingan, cluster Dataproc dapat dimulai, diskalakan, dan dihentikan dengan cepat. Setiap operasi ini rata-rata memerlukan waktu 90 detik atau kurang. Artinya, Anda dapat menghabiskan lebih sedikit waktu untuk menunggu cluster dan lebih banyak waktu untuk menangani data.
- Terintegrasi — Dataproc memiliki integrasi bawaan dengan layanan Google Cloud Platform lainnya, seperti BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging, dan Cloud Monitoring, sehingga Anda memiliki lebih dari sekadar cluster Spark atau Hadoop—Anda memiliki platform data yang lengkap. Misalnya, Anda dapat menggunakan Dataproc untuk dengan mudah melakukan ETL terabyte data log mentah langsung ke BigQuery untuk pelaporan bisnis.
- Terkelola — Gunakan cluster Spark dan Hadoop tanpa bantuan administrator atau software khusus. Anda dapat dengan mudah berinteraksi dengan cluster dan tugas Spark atau Hadoop melalui Konsol Google Cloud, Cloud SDK, atau Dataproc REST API. Setelah selesai dengan cluster, Anda dapat menonaktifkannya, sehingga Anda tidak menghabiskan uang untuk cluster yang tidak ada aktivitas. Anda tidak perlu khawatir kehilangan data, karena Dataproc terintegrasi dengan Cloud Storage, BigQuery, dan Cloud Bigtable.
- Mudah dan familier — Anda tidak perlu mempelajari alat atau API baru untuk menggunakan Dataproc, sehingga memudahkan Anda untuk memindahkan project yang sudah ada ke Dataproc tanpa perlu pengembangan ulang. Spark, Hadoop, Pig, dan Hive sering diupdate, sehingga Anda dapat menjadi produktif lebih cepat.
Apa saja yang termasuk dalam Dataproc?
Untuk mengetahui daftar versi konektor open source (Hadoop, Spark, Hive, dan Pig) dan Google Cloud Platform yang didukung oleh Dataproc, lihat daftar versi Dataproc.
Memulai Dataproc
Untuk memulai Dataproc dengan cepat, lihat Panduan Memulai Dataproc. Anda dapat mengakses Dataproc dengan cara berikut:
- Melalui REST API
- Menggunakan Cloud SDK
- Menggunakan UI Dataproc
- Melalui Library Klien Cloud