Langsung ke
Dataproc

Dataproc

Dataproc adalah layanan yang sangat skalabel dan terkelola sepenuhnya untuk menjalankan Apache Hadoop, Apache Spark, Apache Flink, Presto, serta lebih dari 30 framework dan alat open source. Gunakan Dataproc untuk modernisasi data lake, ETL, dan data science yang aman, dalam skala besar, terintegrasi dengan Google Cloud, dengan biaya yang sangat rendah.

  • Fleksibel: Gunakan secara serverless, atau kelola cluster di Google Compute dan Kubernetes. Deploy solusi yang direkomendasikan Google yang menyatukan data lake dan data warehouse untuk menyimpan, memproses, dan menganalisis data terstruktur dan tidak terstruktur

  • Terbuka: Jalankan analisis data open source dalam skala besar, dengan keamanan tingkat perusahaan

  • Cerdas: Dukung pengguna data melalui integrasi dengan Vertex AI, BigQuery, dan Dataplex 

  • Aman: Konfigurasi keamanan lanjutan seperti Kerberos, Apache Ranger, dan Autentikasi Pribadi

  • Hemat biaya: Wujudkan TCO 54% lebih rendah dibandingkan data lake lokal dengan harga per detik

Manfaat

Memodernisasi pemrosesan data open source Anda

Deployment serverless, logging, dan pemantauan memungkinkan Anda berfokus pada data dan analisis, bukan pada infrastruktur. Kurangi TCO pengelolaan Apache Spark hingga 54%. Bangun dan latih model 5 kali lebih cepat.

OSS cerdas dan bebas hambatan untuk data science

Dukung data scientist dan analis data menjalankan tugas data science secara lancar melalui integrasi native dengan BigQuery, Dataplex, Vertex AI, dan notebook OSS seperti JupyterLab.

Keamanan perusahaan yang terintegrasi dengan Google Cloud

Fitur keamanan seperti enkripsi nonaktif default, Login OS, Kontrol Layanan VPC, dan kunci enkripsi yang dikelola pelanggan (CMEK). Aktifkan Hadoop Secure Mode melalui Kerberos dengan menambahkan konfigurasi keamanan

Fitur utama

Fitur utama

Software open source big data yang otomatis dan terkelola sepenuhnya

Deployment serverless, logging, dan pemantauan memungkinkan Anda berfokus pada data dan analisis, bukan pada infrastruktur. Kurangi TCO pengelolaan Apache Spark hingga 54%. Dukung data scientist dan engineer membangun serta melatih model 5X lebih cepat, dibandingkan dengan notebook konvensional, melalui integrasi dengan Vertex AI Workbench. Dataproc Jobs API memudahkan penggabungan pemrosesan big data ke aplikasi kustom, sedangkan Dataproc Metastore menghilangkan keharusan menjalankan metastore Hive atau layanan katalog Anda sendiri.

Simpan tugas Apache Spark dalam container dengan Kubernetes

Bangun tugas Apache Spark Anda menggunakan Dataproc di Kubernetes sehingga Anda dapat menggunakan Dataproc dengan Google Kubernetes Engine (GKE) untuk menyediakan portabilitas dan pemisahan tugas.

Keamanan perusahaan yang terintegrasi dengan Google Cloud

Saat membuat cluster Dataproc, Anda dapat mengaktifkan Hadoop Secure Mode melalui Kerberos dengan menambahkan Security Configuration. Selain itu, beberapa fitur keamanan spesifik Google Cloud yang paling sering digunakan dengan Dataproc mencakup enkripsi nonaktif default, Login OS, Kontrol Layanan VPC, and kunci enkripsi yang dikelola pelanggan (CMEK).

Keunggulan open source dengan fitur-fitur terbaik Google Cloud

Dengan Dataproc, Anda dapat terus menggunakan alat open source, algoritma, dan bahasa pemrograman yang sudah ada, tetapi penerapannya akan lebih mudah pada set data skala cloud. Sementara itu, Dataproc memiliki integrasi yang siap pakai dengan analisis, database, dan ekosistem AI Google Cloud. Data scientist dan engineer dapat dengan cepat mengakses data serta membangun aplikasi data yang menghubungkan Dataproc ke BigQuery, Vertex AI, Spanner, Pub/Sub, atau Data Fusion

Lihat semua fitur

Dokumentasi

Dokumentasi

Google Cloud Basics

Serverless Spark

Kirim tugas Spark yang disediakan dan diskalakan secara otomatis. Dapatkan info selengkapnya dengan link panduan memulai di bawah ini. 
APIs & Libraries

Tindakan inisialisasi Dataproc

Tambahkan project OSS lainnya ke cluster Dataproc Anda dengan tindakan inisialisasi yang telah dibuat sebelumnya.
APIs & Libraries

Konektor open source

Library dan alat untuk interoperabilitas Apache Hadoop.
APIs & Libraries

Template Alur Kerja Dataproc

Dataproc WorkflowTemplates API memberikan mekanisme fleksibel serta mudah digunakan untuk mengelola dan menjalankan alur kerja.

Tidak menemukan yang Anda cari?

Kasus penggunaan

Kasus penggunaan

Kasus penggunaan
Memindahkan cluster Hadoop dan Spark Anda ke cloud

Banyak perusahaan memigrasikan cluster Apache Hadoop dan Apache Spark lokal yang sudah ada ke Dataproc untuk mengelola biaya serta mewujudkan kedayagunaan skala yang elastis. Dengan Dataproc, perusahaan mendapatkan cluster yang dibuat untuk tujuan khusus dan terkelola sepenuhnya yang dapat menskalakan otomatis untuk mendukung tugas pemrosesan data atau analisis. 

Semua fitur

Semua fitur

Serverless Spark
Deploy aplikasi dan pipeline Spark yang menskalakan otomatis tanpa penyediaan atau penyesuaian infrastruktur manual apa pun. 
Cluster yang ukurannya dapat disesuaikan
Buat dan skalakan cluster dengan cepat menggunakan berbagai jenis virtual machine, ukuran disk, jumlah node, dan opsi jaringan.
Cluster penskalaan otomatis
Penskalaan otomatis Dataproc menyediakan mekanisme untuk mengotomatiskan pengelolaan resource cluster serta memungkinkan penambahan dan pengurangan otomatis worker (node) cluster.
Terintegrasi dengan Cloud
Integrasi bawaan dengan Cloud Storage, BigQuery, Dataplex, Vertex AI, Composer, Bigtable, Cloud Logging, dan Cloud Monitoring, sehingga memberi Anda platform data yang lebih lengkap dan andal.
Konfigurasi otomatis atau manual
Dataproc akan otomatis mengonfigurasi hardware dan software, serta memberi Anda kontrol manual.
Developer tools
Ada banyak cara untuk mengelola cluster, termasuk UI web yang mudah digunakan, Cloud SDK, RESTful API, dan akses SSH.
Tindakan inisialisasi
Jalankan tindakan inisialisasi untuk menginstal atau menyesuaikan setelan dan library yang diperlukan saat cluster dibuat.
Komponen opsional
Gunakan komponen opsional untuk menginstal dan mengonfigurasi komponen tambahan pada cluster. Komponen opsional terintegrasi dengan komponen Dataproc dan menawarkan lingkungan yang terkonfigurasi sepenuhnya untuk Zeppelin, Presto, serta komponen software open source lainnya yang terkait dengan ekosistem Apache Hadoop dan Apache Spark.
Image dan container kustom
Dataproc Serverless Spark dapat disediakan dengan container docker kustom. Cluster Dataproc dapat disediakan dengan image kustom yang berisi paket sistem operasi Linux yang sudah di-instal sebelumnya.
Virtual machine fleksibel
Cluster dapat menggunakan jenis mesin kustom dan preemptible virtual machine agar ukurannya sesuai untuk kebutuhan Anda.
Template alur kerja
Template alur kerja Dataproc menyediakan mekanisme yang fleksibel dan mudah digunakan untuk mengelola serta menjalankan alur kerja. Template alur kerja adalah konfigurasi alur kerja yang dapat digunakan ulang yang mendefinisikan grafik tugas beserta informasi mengenai di mana tugas-tugas tersebut dijalankan. 
Pengelolaan kebijakan otomatis
Lakukan standardisasi pada kebijakan keamanan, biaya, dan infrastruktur di fleet cluster. Anda dapat membuat kebijakan untuk pengelolaan sumber daya, keamanan, atau jaringan di level project. Anda juga dapat memudahkan pengguna menggunakan image, komponen, metastore, dan layanan periferal yang tepat lainnya, yang memungkinkan Anda mengelola fleet cluster dan kebijakan Serverless Spark pada masa mendatang. 
Pemberitahuan cerdas
Pemberitahuan yang direkomendasikan Dataproc memungkinkan pelanggan menyesuaikan batas pemberitahuan yang sudah dikonfigurasi untuk mendapatkan pemberitahuan mengenai cluster yang tidak ada aktivitas serta tidak terkendali, tugas, cluster yang digunakan secara berlebihan, dan lain-lain. Pelanggan dapat menyesuaikan pemberitahuan ini lebih lanjut, bahkan membuat kemampuan pengelolaan tugas dan cluster lanjutan. Dengan kemampuan ini, pelanggan dapat mengelola fleet-nya dalam skala besar.
Dataproc di Google Distributed Cloud (GDC)
Dataproc on GDC memungkinkan Anda menjalankan Spark pada GDC Edge Appliance di pusat data Anda. Sekarang Anda dapat menggunakan aplikasi Spark yang sama di Google Cloud serta pada data sensitif di pusat data Anda.
Dataproc Metastore Multi-regional
Dataproc Metastore adalah Hive metastore (HMS) yang terkelola sepenuhnya dan sangat tersedia dengan kontrol akses yang terperinci. Dataproc Metastore multi-regional menyediakan DR aktif-aktif dan ketahanan terhadap pemadaman layanan regional.

Harga

Harga

Harga Dataproc didasarkan pada jumlah vCPU dan durasi waktu vCPU tersebut berjalan. Meskipun harga ditampilkan sebagai tarif per jam, kami membebankan biaya berdasarkan hitungan detik sehingga Anda hanya perlu membayar sesuai penggunaan.

Contoh: Sebuah cluster dengan 6 node (1 main + 5 worker) yang terdiri dari 4 CPU, yang masing-masing berjalan selama 2 jam, akan berharga $0,48. Biaya Dataproc = jumlah vCPU * jam * harga Dataproc = 24 * 2 * $0,01 = $0,48

Lihat halaman harga untuk mengetahui detailnya.

Partner

Partner

Dataproc berintegrasi dengan para partner utama untuk melengkapi investasi dan keahlian yang sudah Anda miliki. 

Langkah selanjutnya

Mulailah membangun solusi di Google Cloud dengan kredit gratis senilai $300 dan lebih dari 20 produk yang selalu gratis.

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
Konsol