Apa itu Dataproc?

Dataproc adalah layanan Spark dan Hadoop terkelola yang memungkinkan Anda memanfaatkan alat data open source untuk batch processing, kueri, streaming, dan machine learning. Otomatisasi Dataproc membantu Anda membuat cluster dengan cepat, mengelolanya dengan mudah, dan menghemat uang dengan menonaktifkan cluster saat Anda tidak membutuhkannya. Dengan lebih sedikit waktu dan uang yang dihabiskan untuk administrasi, Anda dapat berfokus pada pekerjaan dan data Anda.

Mengapa menggunakan Dataproc?

Jika dibandingkan dengan produk lokal tradisional dan layanan cloud pesaing, Dataproc memiliki sejumlah keunggulan unik untuk cluster yang terdiri dari tiga hingga ratusan node:

Hemat biaya — Dataproc dikenakan biaya hanya 1 sen per CPU virtual di cluster Anda per jam, selain resource Cloud Platform lain yang Anda gunakan. Selain harga yang rendah ini, cluster Dataproc dapat menyertakan preemptible instance yang memiliki harga komputasi lebih rendah, sehingga mengurangi biaya Anda lebih jauh. Bukannya membulatkan penggunaan ke jam terdekat, Dataproc hanya akan menagih Anda sesuai penggunaan yang benar-benar Anda gunakan dengan penagihan per detik serta periode penagihan minimum satu menit.
Super cepat — Tanpa menggunakan Dataproc, diperlukan waktu lima hingga 30 menit untuk membuat cluster Spark dan Hadoop secara lokal atau melalui penyedia IaaS. Sebagai perbandingan, cluster Dataproc dapat dimulai, diskalakan, dan dimatikan dengan cepat. Setiap operasi ini memerlukan waktu rata-rata 90 detik atau kurang. Artinya, Anda dapat menghabiskan lebih sedikit waktu untuk menunggu cluster dan lebih banyak waktu untuk langsung bekerja dengan data.
Terintegrasi — Dataproc memiliki integrasi bawaan dengan layanan Google Cloud Platform lainnya, seperti BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging, dan Cloud Monitoring, sehingga Anda memiliki lebih dari sekadar cluster Spark atau Hadoop—Anda memiliki platform data yang lengkap. Misalnya, Anda dapat menggunakan Dataproc untuk melakukan ETL terabyte data log mentah dengan mudah langsung ke BigQuery untuk pelaporan bisnis.
Terkelola — Gunakan cluster Spark dan Hadoop tanpa bantuan administrator atau software khusus. Anda dapat berinteraksi dengan mudah dengan cluster dan tugas Spark atau Hadoop melalui Google Cloud Console, Cloud SDK, atau Dataproc REST API. Setelah selesai dengan cluster, Anda dapat menonaktifkannya, sehingga Anda tidak menghabiskan uang untuk cluster yang tidak ada aktivitas. Anda tidak perlu khawatir akan kehilangan data, karena Dataproc terintegrasi dengan Cloud Storage, BigQuery, dan Cloud Bigtable.
Sederhana dan mudah dipahami — Anda tidak perlu mempelajari alat atau API baru untuk menggunakan Dataproc, sehingga memudahkan Anda untuk memindahkan project yang sudah ada ke Dataproc tanpa perlu pengembangan ulang. Spark, Hadoop, Pig, dan Hive sering diupdate, sehingga Anda dapat menjadi produktif lebih cepat.

Apa saja yang disertakan dalam Dataproc?

Untuk mengetahui daftar versi konektor open source (Hadoop, Spark, Hive, dan Pig) dan Google Cloud Platform yang didukung oleh Dataproc, lihat daftar versi Dataproc.

Memulai Dataproc

Untuk memulai Dataproc dengan cepat, lihat Panduan Memulai Dataproc. Anda dapat mengakses Dataproc dengan cara berikut:

Melalui REST API
Menggunakan Cloud SDK
Menggunakan UI Dataproc
Melalui Library Klien Cloud