Google Cloud Dataproc dapat memberikan penghematan biaya sebesar 18% hingga 60% dibandingkan dengan alternatif Hadoop dan Spark berbasis cloud lainnya. Dapatkan laporan ESG.

Dataproc

Platform terkelola untuk Spark, Hadoop, dan analisis open source

Jalankan cluster Apache Spark, Hadoop, dan lebih dari 30 framework open source yang terkelola sepenuhnya dengan mudah dan terkontrol. Percepat Spark di Compute Engine menggunakan Lightning Engine dan integrasikan dengan lakehouse terbuka Google Cloud.

Apache Spark adalah merek dagang dari Apache Software Foundation.

Fitur

Dukungan ekosistem Hadoop yang tangguh

Selain Spark, Dataproc menyediakan layanan yang terkelola sepenuhnya untuk stack Apache Hadoop yang lengkap (MapReduce, HDFS, YARN), plus Flink, Trino, Hive, dan lebih dari 30 alat open source lainnya. Untuk mendukung hal tersebut, Dataproc terintegrasi dengan Dataproc Metastore, yaitu layanan Hive Metastore yang terkelola sepenuhnya, yang menyederhanakan pengelolaan metadata untuk komponen data lake tradisional Anda. Modernkan workload data lake tradisional atau bangun aplikasi baru dengan mesin pilihan Anda.

Spark terkelola dengan Lightning Engine

Jalankan workload Spark yang menuntut dengan kontrol cluster Dataproc terkelola, yang kini didukung dengan kecepatan kueri 4,3 kali lipat* oleh Lightning Engine,** dalam versi Pratinjau. Rasakan peningkatan performa yang signifikan untuk operasi Spark SQL dan DataFrame. Konfigurasikan lingkungan Spark sesuai kebutuhan Anda, dengan memilih versi dan library.

*Kueri berasal dari standar TPC-DS dan standar TPC-H sehingga tidak dapat dibandingkan dengan hasil standar TPC-DS dan standar TPC-H yang dipublikasikan, karena proses ini tidak mematuhi semua spesifikasi standar TPC-DS dan standar TPC-H.

**Tersedia untuk paket premium Dataproc di Compute Engine.

Konfigurasi dan pengelolaan cluster yang fleksibel

Sesuaikan cluster Dataproc dengan berbagai jenis mesin (termasuk GPU), preemptible VM, opsi disk, kebijakan penskalaan otomatis, tindakan inisialisasi, image/container, dan komponen opsional. Gunakan fitur seperti Template Alur Kerja untuk mengatur tugas yang kompleks dan mengelola cluster melalui konsol, gcloud, API, atau library klien. Dapatkan visibilitas mendalam tentang performa dan kondisi cluster melalui integrasi dengan Cloud Monitoring, yang menyediakan metrik, dasbor, dan kemampuan pemberitahuan yang komprehensif.

Konektivitas lakehouse terbuka

Cluster Dataproc terintegrasi secara native dengan BigLake Metastore, sehingga Anda dapat memproses data yang disimpan dalam format terbuka seperti Apache Iceberg di Cloud Storage. Terdapat integrasi yang lancar dengan layanan Dataproc Metastore terkelola untuk kebutuhan metadata berbasis Hive tradisional. Manfaatkan Katalog Universal Dataplex untuk penemuan, silsilah, dan tata kelola terpadu di seluruh aset lakehouse Anda. Perluas aplikasi data Anda dengan menghubungkan Dataproc ke BigQuery, Vertex AI, Spanner, Pub/Sub, dan Data Fusion, sehingga menciptakan solusi end-to-end yang canggih.

Mengamankan pemrosesan data open source Anda

Manfaatkan keamanan yang tangguh dari Google Cloud. Konfigurasikan Kerberos, kelola akses dengan IAM, terapkan kebijakan jaringan dengan Kontrol Layanan VPC, dan gunakan CMEK. Integrasikan dengan Katalog Universal Dataplex untuk pengelolaan kebijakan terpusat dan memungkinkan kontrol akses terperinci dengan BigLake.

Memberdayakan data engineer dan data scientist

Manfaatkan alat dan IDE yang sudah dipahami, seperti IDE Jupyter dan VS Code yang berjalan di laptop Anda untuk menghubungkan cluster Dataproc. Integrasikan Dataproc dengan Vertex AI Workbench untuk pengembangan Spark interaktif pada cluster dan bangun pipeline AI/ML secara menyeluruh dengan Vertex AI.

Cara Kerjanya

Operasi cluster yang disederhanakan untuk analisis yang canggih

Penggunaan Umum

Modernisasi data lake dan migrasi Hadoop

Modernkan data lake Anda

Migrasikan workload Hadoop dan Spark lokal ke cloud dengan mudah. Gunakan Dataproc untuk menjalankan tugas MapReduce, Hive, Pig, dan Spark pada data di Cloud Storage, yang terintegrasi dengan Dataproc Metastore dan diatur oleh Katalog Universal Dataplex.

Tutorial, panduan memulai, dan lab

Modernkan data lake Anda

Migrasikan workload Hadoop dan Spark lokal ke cloud dengan mudah. Gunakan Dataproc untuk menjalankan tugas MapReduce, Hive, Pig, dan Spark pada data di Cloud Storage, yang terintegrasi dengan Dataproc Metastore dan diatur oleh Katalog Universal Dataplex.

ETL batch berskala besar dengan Spark dan Hadoop

Batch processing perusahaan

Proses dan transformasi set data besar secara efisien menggunakan Spark, yang dipercepat oleh Lightning Engine dengan Dataproc di Compute Engine, atau MapReduce di cluster Dataproc yang dapat disesuaikan. Optimalkan pipeline ETL yang kompleks untuk performa dan biaya di lingkungan yang terkontrol.

Tutorial, panduan memulai, dan lab

Batch processing perusahaan

Proses dan transformasi set data besar secara efisien menggunakan Spark, yang dipercepat oleh Lightning Engine dengan Dataproc di Compute Engine, atau MapReduce di cluster Dataproc yang dapat disesuaikan. Optimalkan pipeline ETL yang kompleks untuk performa dan biaya di lingkungan yang terkontrol.

Lingkungan ML dan data science yang dapat dikonfigurasi

Data science kustom dalam skala besar

Jalankan cluster Dataproc yang dibuat khusus dengan versi tertentu dari Spark, Jupyter, dan library ML yang diperlukan untuk pelatihan model berskala besar yang kolaboratif dan analisis tingkat lanjut. Berintegrasi dengan Vertex AI untuk MLOps.

Resep AI/ML untuk Dataproc

Tutorial, panduan memulai, dan lab

Data science kustom dalam skala besar

Jalankan cluster Dataproc yang dibuat khusus dengan versi tertentu dari Spark, Jupyter, dan library ML yang diperlukan untuk pelatihan model berskala besar yang kolaboratif dan analisis tingkat lanjut. Berintegrasi dengan Vertex AI untuk MLOps.

Resep AI/ML untuk Dataproc

Menjalankan berbagai mesin analisis open source

OSS yang fleksibel

Deploy cluster khusus dengan Trino untuk SQL interaktif, Flink untuk pemrosesan aliran data tingkat lanjut, atau mesin open source khusus lainnya bersama Spark dan Hadoop, semuanya dikelola oleh Dataproc.

Dataproc berpadu dengan TensorFlow di YARN

Tutorial, panduan memulai, dan lab

OSS yang fleksibel

Deploy cluster khusus dengan Trino untuk SQL interaktif, Flink untuk pemrosesan aliran data tingkat lanjut, atau mesin open source khusus lainnya bersama Spark dan Hadoop, semuanya dikelola oleh Dataproc.

Dataproc berpadu dengan TensorFlow di YARN

Membuat solusi

Masalah apa yang ingin Anda temukan solusinya?

What you'll get:

Panduan langkah demi langkah

Arsitektur referensi

Solusi siap pakai yang tersedia

Layanan ini dibangun dengan Vertex AI. Anda harus berusia 18 tahun ke atas untuk menggunakannya. Jangan memasukkan informasi sensitif, rahasia, atau pribadi.

Harga

Harga Dataproc untuk cluster terkelola	Dataproc menawarkan harga bayar sesuai penggunaan. Optimalkan biaya dengan penskalaan otomatis dan preemptible VM. Paket premium Compute Engine memungkinkan Spark menjadi lebih cepat dengan Lightning Engine.
Komponen penting:	Instance Compute Engine (vCPU, memori) Biaya layanan Dataproc (per vCPU-jam) Persistent Disk
Contoh:	Cluster dengan 6 node (1 main + 5 worker) yang terdiri dari 4 CPU, yang masing-masing berjalan selama 2 jam, akan berharga $0,48. Biaya Dataproc = jumlah vCPU * jam * harga Dataproc = 24 * 2 * $0,01 = $0,48

Lihat harga Dataproc mendetail

Harga Dataproc untuk cluster terkelola

Dataproc menawarkan harga bayar sesuai penggunaan. Optimalkan biaya dengan penskalaan otomatis dan preemptible VM. Paket premium Compute Engine memungkinkan Spark menjadi lebih cepat dengan Lightning Engine.

Komponen penting:

Instance Compute Engine (vCPU, memori)
Biaya layanan Dataproc (per vCPU-jam)
Persistent Disk

Contoh:

Cluster dengan 6 node (1 main + 5 worker) yang terdiri dari 4 CPU, yang masing-masing berjalan selama 2 jam, akan berharga $0,48. Biaya Dataproc = jumlah vCPU * jam * harga Dataproc = 24 * 2 * $0,01 = $0,48

Lihat harga Dataproc mendetail

Kalkulator harga

Perkirakan biaya Dataproc bulanan Anda, termasuk harga dan biaya khusus per region.

Penawaran kustom

Hubungi tim penjualan kami untuk mendapatkan penawaran harga khusus bagi organisasi Anda.

Dataproc

Platform terkelola untuk Spark, Hadoop, dan analisis open source

Highlight produk:

Dukungan ekosistem Hadoop yang tangguh

Spark terkelola dengan Lightning Engine

Konfigurasi dan pengelolaan cluster yang fleksibel

Konektivitas lakehouse terbuka

Mengamankan pemrosesan data open source Anda

Memberdayakan data engineer dan data scientist

Operasi cluster yang disederhanakan untuk analisis yang canggih

Modernisasi data lake dan migrasi Hadoop

Modernkan data lake Anda

Tutorial, panduan memulai, dan lab

Modernkan data lake Anda

ETL batch berskala besar dengan Spark dan Hadoop

Batch processing perusahaan

Tutorial, panduan memulai, dan lab

Batch processing perusahaan

Lingkungan ML dan data science yang dapat dikonfigurasi

Data science kustom dalam skala besar

Tutorial, panduan memulai, dan lab

Data science kustom dalam skala besar

Menjalankan berbagai mesin analisis open source

OSS yang fleksibel

Tutorial, panduan memulai, dan lab

OSS yang fleksibel

Kalkulator harga

Penawaran kustom

Mulai sekarang juga

$300 dalam bentuk kredit gratis untuk pelanggan baru

Punya project besar?

Membuat cluster Dataproc menggunakan Konsol Google Cloud

Menggunakan konektor Cloud Storage dengan Apache Spark

Architecture Center menyediakan resource konten untuk berbagai subjek dan skenario migrasi yang dapat membantu Anda