Dataproc adalah layanan yang sangat skalabel dan terkelola sepenuhnya untuk menjalankan Apache Hadoop, Apache Spark, Apache Flink, Presto, serta lebih dari 30 framework dan alat open source. Gunakan Dataproc untuk modernisasi data lake, ETL, dan data science yang aman, dalam skala besar, terintegrasi dengan Google Cloud, dengan biaya yang sangat rendah.
Fleksibel: Gunakan secara serverless, atau kelola cluster di Google Compute dan Kubernetes. Deploy solusi yang direkomendasikan Google yang menyatukan data lake dan data warehouse untuk menyimpan, memproses, dan menganalisis data terstruktur dan tidak terstruktur
Terbuka: Jalankan analisis data open source dalam skala besar, dengan keamanan tingkat perusahaan
Aman: Konfigurasi keamanan lanjutan seperti Kerberos, Apache Ranger, dan Autentikasi Pribadi
Hemat biaya: Wujudkan TCO 54% lebih rendah dibandingkan data lake lokal dengan harga per detik
Manfaat
Deployment serverless, logging, dan pemantauan memungkinkan Anda berfokus pada data dan analisis, bukan pada infrastruktur. Kurangi TCO pengelolaan Apache Spark hingga 54%. Bangun dan latih model 5 kali lebih cepat.
Fitur keamanan seperti enkripsi nonaktif default, Login OS, Kontrol Layanan VPC, dan kunci enkripsi yang dikelola pelanggan (CMEK). Aktifkan Hadoop Secure Mode melalui Kerberos dengan menambahkan konfigurasi keamanan.
Fitur utama
Deployment serverless, logging, dan pemantauan memungkinkan Anda berfokus pada data dan analisis, bukan pada infrastruktur. Kurangi TCO pengelolaan Apache Spark hingga 54%. Dukung data scientist dan engineer membangun serta melatih model 5X lebih cepat, dibandingkan dengan notebook konvensional, melalui integrasi dengan Vertex AI Workbench. Dataproc Jobs API memudahkan penggabungan pemrosesan big data ke aplikasi kustom, sedangkan Dataproc Metastore menghilangkan keharusan menjalankan metastore Hive atau layanan katalog Anda sendiri.
Bangun tugas Apache Spark Anda menggunakan Dataproc di Kubernetes sehingga Anda dapat menggunakan Dataproc dengan Google Kubernetes Engine (GKE) untuk menyediakan portabilitas dan pemisahan tugas.
Saat membuat cluster Dataproc, Anda dapat mengaktifkan Hadoop Secure Mode melalui Kerberos dengan menambahkan Security Configuration. Selain itu, beberapa fitur keamanan spesifik Google Cloud yang paling sering digunakan dengan Dataproc mencakup enkripsi nonaktif default, Login OS, Kontrol Layanan VPC, and kunci enkripsi yang dikelola pelanggan (CMEK).
Dengan Dataproc, Anda dapat terus menggunakan alat open source, algoritma, dan bahasa pemrograman yang sudah ada, tetapi penerapannya akan lebih mudah pada set data skala cloud. Sementara itu, Dataproc memiliki integrasi yang siap pakai dengan analisis, database, dan ekosistem AI Google Cloud. Data scientist dan engineer dapat dengan cepat mengakses data serta membangun aplikasi data yang menghubungkan Dataproc ke BigQuery, Vertex AI, Spanner, Pub/Sub, atau Data Fusion.
Pelanggan
Yang baru
Serverless Spark kini tersedia secara umum. Daftar untuk melihat pratinjau Spark lainnya di layanan Google Cloud.
Dokumentasi
Kasus penggunaan
Banyak perusahaan memigrasikan cluster Apache Hadoop dan Apache Spark lokal yang sudah ada ke Dataproc untuk mengelola biaya serta mewujudkan kedayagunaan skala yang elastis. Dengan Dataproc, perusahaan mendapatkan cluster yang dibuat untuk tujuan khusus dan terkelola sepenuhnya yang dapat menskalakan otomatis untuk mendukung tugas pemrosesan data atau analisis.
Buat lingkungan data science ideal Anda dengan menjalankan cluster Dataproc yang dibuat untuk tujuan khusus. Integrasikan software open source seperti Apache Spark, NVIDIA RAPIDS, dan notebook Jupyter dengan layanan AI serta GPU Google Cloud untuk membantu mempercepat pengembangan machine learning dan AI Anda.
Semua fitur
Serverless Spark | Deploy aplikasi dan pipeline Spark yang menskalakan otomatis tanpa penyediaan atau penyesuaian infrastruktur manual apa pun. |
Cluster yang ukurannya dapat disesuaikan | Buat dan skalakan cluster dengan cepat menggunakan berbagai jenis virtual machine, ukuran disk, jumlah node, dan opsi jaringan. |
Cluster penskalaan otomatis | Penskalaan otomatis Dataproc menyediakan mekanisme untuk mengotomatiskan pengelolaan resource cluster serta memungkinkan penambahan dan pengurangan otomatis worker (node) cluster. |
Terintegrasi dengan Cloud | Integrasi bawaan dengan Cloud Storage, BigQuery, Dataplex, Vertex AI, Composer, Bigtable, Cloud Logging, dan Cloud Monitoring, sehingga memberi Anda platform data yang lebih lengkap dan andal. |
Konfigurasi otomatis atau manual | Dataproc akan otomatis mengonfigurasi hardware dan software, serta memberi Anda kontrol manual. |
Developer tools | Ada banyak cara untuk mengelola cluster, termasuk UI web yang mudah digunakan, Cloud SDK, RESTful API, dan akses SSH. |
Tindakan inisialisasi | Jalankan tindakan inisialisasi untuk menginstal atau menyesuaikan setelan dan library yang diperlukan saat cluster dibuat. |
Komponen opsional | Gunakan komponen opsional untuk menginstal dan mengonfigurasi komponen tambahan pada cluster. Komponen opsional terintegrasi dengan komponen Dataproc dan menawarkan lingkungan yang terkonfigurasi sepenuhnya untuk Zeppelin, Presto, serta komponen software open source lainnya yang terkait dengan ekosistem Apache Hadoop dan Apache Spark. |
Image dan container kustom | Dataproc Serverless Spark dapat disediakan dengan container docker kustom. Cluster Dataproc dapat disediakan dengan image kustom yang berisi paket sistem operasi Linux yang sudah di-instal sebelumnya. |
Virtual machine fleksibel | Cluster dapat menggunakan jenis mesin kustom dan preemptible virtual machine agar ukurannya sesuai untuk kebutuhan Anda. |
Template alur kerja | Template alur kerja Dataproc menyediakan mekanisme yang fleksibel dan mudah digunakan untuk mengelola serta menjalankan alur kerja. Template alur kerja adalah konfigurasi alur kerja yang dapat digunakan ulang yang mendefinisikan grafik tugas beserta informasi mengenai di mana tugas-tugas tersebut dijalankan. |
Pengelolaan kebijakan otomatis | Lakukan standardisasi pada kebijakan keamanan, biaya, dan infrastruktur di fleet cluster. Anda dapat membuat kebijakan untuk pengelolaan sumber daya, keamanan, atau jaringan di level project. Anda juga dapat memudahkan pengguna menggunakan image, komponen, metastore, dan layanan periferal yang tepat lainnya, yang memungkinkan Anda mengelola fleet cluster dan kebijakan Serverless Spark pada masa mendatang. |
Pemberitahuan cerdas | Pemberitahuan yang direkomendasikan Dataproc memungkinkan pelanggan menyesuaikan batas pemberitahuan yang sudah dikonfigurasi untuk mendapatkan pemberitahuan mengenai cluster yang tidak ada aktivitas serta tidak terkendali, tugas, cluster yang digunakan secara berlebihan, dan lain-lain. Pelanggan dapat menyesuaikan pemberitahuan ini lebih lanjut, bahkan membuat kemampuan pengelolaan tugas dan cluster lanjutan. Dengan kemampuan ini, pelanggan dapat mengelola fleet-nya dalam skala besar. |
Dataproc di Google Distributed Cloud (GDC) | Dataproc on GDC memungkinkan Anda menjalankan Spark pada GDC Edge Appliance di pusat data Anda. Sekarang Anda dapat menggunakan aplikasi Spark yang sama di Google Cloud serta pada data sensitif di pusat data Anda. |
Dataproc Metastore Multi-regional | Dataproc Metastore adalah Hive metastore (HMS) yang terkelola sepenuhnya dan sangat tersedia dengan kontrol akses yang terperinci. Dataproc Metastore multi-regional menyediakan DR aktif-aktif dan ketahanan terhadap pemadaman layanan regional. |
Harga
Harga Dataproc didasarkan pada jumlah vCPU dan durasi waktu vCPU tersebut berjalan. Meskipun harga ditampilkan sebagai tarif per jam, kami membebankan biaya berdasarkan hitungan detik sehingga Anda hanya perlu membayar sesuai penggunaan.
Contoh: Sebuah cluster dengan 6 node (1 main + 5 worker) yang terdiri dari 4 CPU, yang masing-masing berjalan selama 2 jam, akan berharga $0,48. Biaya Dataproc = jumlah vCPU * jam * harga Dataproc = 24 * 2 * $0,01 = $0,48
Lihat halaman harga untuk mengetahui detailnya.
Partner
Dataproc berintegrasi dengan para partner utama untuk melengkapi investasi dan keahlian yang sudah Anda miliki.
Mulailah membangun solusi di Google Cloud dengan kredit gratis senilai $300 dan lebih dari 20 produk yang selalu gratis.