Ringkasan Dataproc

Dataproc adalah layanan Spark dan Hadoop terkelola yang memungkinkan Anda memanfaatkan alat data open source untuk pemrosesan batch, pembuatan kueri, streaming, dan machine learning. Otomatisasi Dataproc membantu Anda membuat cluster dengan cepat, mengelolanya dengan mudah, dan menghemat uang dengan menonaktifkan cluster saat tidak diperlukan. Karena lebih sedikit waktu dan uang yang dihabiskan untuk tugas administrasi, Anda dapat berfokus pada pekerjaan dan data Anda.

Mengapa menggunakan Dataproc?

Jika dibandingkan dengan produk lokal tradisional dan layanan cloud pesaing, Dataproc memiliki sejumlah keunggulan unik untuk cluster tiga hingga ratusan node:

  • Biaya rendah — Dataproc dihargai hanya 1 sen per CPU virtual di cluster Anda per jam, di samping resource Cloud Platform lainnya yang Anda gunakan. Selain harga rendah ini, kluster Dataproc dapat menyertakan instance yang dapat dihentikan yang memiliki harga komputasi lebih rendah, sehingga mengurangi biaya Anda lebih lanjut. Dataproc hanya menagih Anda untuk penggunaan yang benar-benar Anda gunakan dengan penagihan detik demi detik dan periode penagihan minimum satu menit yang rendah, bukan membulatkan penggunaan Anda ke jam terdekat.
  • Super cepat — Tanpa menggunakan Dataproc, diperlukan waktu sekitar lima hingga 30 menit untuk membuat cluster Spark dan Hadoop secara lokal atau melalui penyedia IaaS. Sebagai perbandingan, cluster Dataproc dimulai, diskalakan, dan dimatikan dengan cepat. Setiap operasi ini rata-rata membutuhkan waktu 90 detik atau lebih cepat. Artinya, Anda dapat menghabiskan lebih sedikit waktu untuk menunggu cluster dan memiliki lebih banyak waktu untuk langsung bekerja dengan data.
  • Terintegrasi — Dataproc memiliki integrasi bawaan dengan layanan Google Cloud Platform lainnya, seperti BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging, dan Cloud Monitoring, sehingga Anda memiliki lebih dari sekadar cluster Spark atau Hadoop—Anda memiliki platform data yang lengkap. Misalnya, Anda dapat menggunakan Dataproc untuk melakukan ETL data log mentah terabyte secara langsung ke BigQuery untuk pelaporan bisnis dengan mudah.
  • Terkelola — Menggunakan cluster Spark dan Hadoop tanpa bantuan administrator atau software khusus. Anda dapat dengan mudah berinteraksi dengan cluster dan tugas Spark atau Hadoop melalui konsol Google Cloud, Cloud SDK, atau Dataproc REST API. Setelah selesai menggunakan cluster, Anda dapat menonaktifkannya, sehingga tidak perlu membayar cluster yang tidak ada aktivitasnya. Anda tidak perlu khawatir kehilangan data karena Dataproc terintegrasi dengan Cloud Storage, BigQuery, dan Cloud Bigtable.
  • Sederhana dan familier — Anda tidak perlu mempelajari alat atau API baru untuk menggunakan Dataproc, sehingga memudahkan Anda memindahkan project yang ada ke Dataproc tanpa perlu pengembangan ulang. Spark, Hadoop, Pig, dan Hive sering diperbarui, sehingga Anda dapat lebih produktif.

Apa saja yang disertakan dalam Dataproc?

Untuk mengetahui daftar versi konektor open source (Hadoop, Spark, Hive, dan Pig) dan Google Cloud Platform yang didukung oleh Dataproc, lihat Daftar versi Dataproc.

Memulai Dataproc

Untuk mulai menggunakan Dataproc dengan cepat, lihat Panduan Memulai Dataproc. Anda dapat mengakses Dataproc dengan cara berikut: