Dataproc

Dataproc

Dataproc adalah layanan yang sangat skalabel dan terkelola sepenuhnya untuk menjalankan Apache Hadoop, Apache Spark, Apache Flink, Presto, serta lebih dari 30 framework dan alat open source. Gunakan Dataproc untuk modernisasi data lake, ETL, dan data science yang aman, dalam skala besar, terintegrasi dengan Google Cloud, dengan biaya yang sangat rendah.

Coba Dataproc secara gratis

Terbuka: Jalankan analisis data open source dalam skala besar, dengan keamanan tingkat perusahaan
Fleksibel: Gunakan serverless, atau kelola cluster di Google Compute dan Kubernetes
Cerdas: Dukung pengguna data melalui integrasi dengan Vertex AI, BigQuery, dan Dataplex
Aman: Konfigurasi keamanan lanjutan seperti Kerberos, Apache Ranger, dan Autentikasi Pribadi
Hemat biaya: Wujudkan TCO 54% lebih rendah dibandingkan data lake lokal dengan harga per detik

VIDEO

Dataproc mendukung OSS populer seperti Apache Spark, Presto, Flink, dan lain-lain.

1:23

Manfaat

Memodernisasi pemrosesan data open source Anda

OSS cerdas dan bebas hambatan untuk data science

Dukung data scientist dan analis data menjalankan tugas data science secara lancar melalui integrasi native dengan BigQuery, Dataplex, Vertex AI, dan notebook OSS seperti JupyterLab.

Keamanan perusahaan yang terintegrasi dengan Google Cloud

Fitur keamanan seperti enkripsi nonaktif default, Login OS, Kontrol Layanan VPC, dan kunci enkripsi yang dikelola pelanggan (CMEK). Aktifkan Hadoop Secure Mode melalui Kerberos dengan menambahkan konfigurasi keamanan.

Fitur utama

Software open source big data yang otomatis dan terkelola sepenuhnya

Deployment serverless, logging, dan pemantauan memungkinkan Anda berfokus pada data dan analisis, bukan pada infrastruktur. Kurangi TCO pengelolaan Apache Spark hingga 54%. Dukung data scientist dan engineer membangun serta melatih model 5X lebih cepat, dibandingkan dengan notebook konvensional, melalui integrasi dengan Vertex AI Workbench. Dataproc Jobs API memudahkan penggabungan pemrosesan big data ke aplikasi kustom, sedangkan Dataproc Metastore menghilangkan keharusan menjalankan metastore Hive atau layanan katalog Anda sendiri.

Simpan tugas Apache Spark dalam container dengan Kubernetes

Bangun tugas Apache Spark Anda menggunakan Dataproc di Kubernetes sehingga Anda dapat menggunakan Dataproc dengan Google Kubernetes Engine (GKE) untuk menyediakan portabilitas dan pemisahan tugas.

Keamanan perusahaan yang terintegrasi dengan Google Cloud

Saat membuat cluster Dataproc, Anda dapat mengaktifkan Hadoop Secure Mode melalui Kerberos dengan menambahkan Security Configuration. Selain itu, beberapa fitur keamanan spesifik Google Cloud yang paling sering digunakan dengan Dataproc mencakup enkripsi nonaktif default, Login OS, Kontrol Layanan VPC, and kunci enkripsi yang dikelola pelanggan (CMEK).

Keunggulan open source dengan fitur-fitur terbaik Google Cloud

Dengan Dataproc, Anda dapat terus menggunakan alat open source, algoritma, dan bahasa pemrograman yang sudah ada, tetapi penerapannya akan lebih mudah pada set data skala cloud. Sementara itu, Dataproc memiliki integrasi yang siap pakai dengan analisis, database, dan ekosistem AI Google Cloud. Data scientist dan engineer dapat dengan cepat mengakses data serta membangun aplikasi data yang menghubungkan Dataproc ke BigQuery, Vertex AI, Spanner, Pub/Sub, atau Data Fusion.

Lihat semua fitur

Thumbnail gedung bank dengan spreadsheet di sebelah kiri dan ponsel di sebelah kanan

VIDEO

Demo: Lihat cara Dataproc dan Cloud Storage membantu mempercepat pemrosesan pinjaman

3:39

Pelanggan

Belajar dari pelanggan yang menggunakan Dataproc

Blog post

Broadcom memodernisasi data lake-nya dengan Dataproc dan mewujudkan pengelolaan data yang fleksibel

Waktu baca: 5 menit

Case study

Dataproc memberikan akses Wayfair yang berperforma tinggi dan minim perawatan ke data tak terstruktur dalam skala besar.

Waktu baca: 8 menit

Video

Vodafone Group memindahkan 600 server Apache Hadoop lokal ke cloud.

47.17

Case study

Twitter beralih dari Hadoop lokal ke Google Cloud untuk menyimpan dan mengkueri data dengan lebih hemat biaya.

49.57

Case study

Pandora memigrasikan lebih dari 7 PB data dari Hadoop lokal ke Google Cloud untuk membantu menskalakan dan mengurangi biaya.

50.51

Case study

Dengan menaik-turunkan skala cluster Dataproc, METRO mampu mengurangi biaya infrastruktur sebanyak 30% hingga 50%.

Waktu baca: 5 menit

Lihat semua pelanggan

Yang baru

Serverless Spark kini tersedia secara umum. Daftar untuk melihat pratinjau Spark lainnya di layanan Google Cloud.

Blog post

Tugas Serverless Spark mempermudah pekerjaan semua pengguna dataPelajari lebih lanjut

Blog post

Menggabungkan arsitektur: Menyatukan data lake dan data warehouseBaca blog

Blog post

Panduan praktik terbaik Dataproc baruPelajari lebih lanjut

Blog post

Fitur Dataproc GA baru memperluas kapabilitas data science dan MLPelajari lebih lanjut

Dokumentasi

Google Cloud Basics

Serverless Spark

Kirim tugas Spark yang disediakan dan diskalakan secara otomatis. Dapatkan info selengkapnya dengan link panduan memulai di bawah ini.

Pelajari lebih lanjut

APIs & Libraries

Tindakan inisialisasi Dataproc

Tambahkan project OSS lainnya ke cluster Dataproc Anda dengan tindakan inisialisasi yang telah dibuat sebelumnya.

Pelajari lebih lanjut

APIs & Libraries

Konektor open source

Library dan alat untuk interoperabilitas Apache Hadoop.

Pelajari lebih lanjut

APIs & Libraries

Template Alur Kerja Dataproc

Dataproc WorkflowTemplates API memberikan mekanisme fleksibel serta mudah digunakan untuk mengelola dan menjalankan alur kerja.

Pelajari lebih lanjut

Tidak menemukan yang Anda cari?

Lihat semua dokumentasi produk

Catatan rilis

Baca tentang rilis terbaru untuk Dataproc.

Kasus penggunaan

Memindahkan cluster Hadoop dan Spark Anda ke cloud

Banyak perusahaan memigrasikan cluster Apache Hadoop dan Apache Spark lokal yang sudah ada ke Dataproc untuk mengelola biaya serta mewujudkan kedayagunaan skala yang elastis. Dengan Dataproc, perusahaan mendapatkan cluster yang dibuat untuk tujuan khusus dan terkelola sepenuhnya yang dapat menskalakan otomatis untuk mendukung tugas pemrosesan data atau analisis.

Best practice

Panduan migrasi Apache Spark

Jangan menulis ulang kode Spark di Google Cloud.

Pelajari lebih lanjut

Best practice

Migrasikan data HDFS ke Google Cloud

Pelajari kapan dan bagaimana Anda dapat memigrasikan data HDFS lokal ke Google Cloud Storage.

Pelajari lebih lanjut

Best practice

Memindahkan kontrol keamanan dari infrastruktur lokal ke Dataproc

Migrasikan kontrol keamanan yang ada ke Dataproc untuk membantu mewujudkan kepatuhan perusahaan dan industri.

Pelajari lebih lanjut

Kasus penggunaan

Data science di Dataproc

Buat lingkungan data science ideal Anda dengan menjalankan cluster Dataproc yang dibuat untuk tujuan khusus. Integrasikan software open source seperti Apache Spark, NVIDIA RAPIDS, dan notebook Jupyter dengan layanan AI serta GPU Google Cloud untuk membantu mempercepat pengembangan machine learning dan AI Anda.

Tutorial

Gunakan Dataproc dan Apache Spark ML untuk machine learning

Integrasikan Dataproc dengan layanan Google Cloud lainnya untuk membangun pengalaman data science yang menyeluruh.

Pelajari lebih lanjut

Best practice

Data science open source yang dikelola IT dengan Dataproc Hub

Pelajari cara Dataproc Hub memberi data scientist semua alat open source yang mereka perlukan dengan cara yang diatur oleh IT dan kontrol biaya.

Pelajari lebih lanjut

Tutorial

Dataproc berpadu dengan TensorFlow di YARN

Pelajari cara mengorkestrasi TensorFlow terdistribusi dengan TonY.

Pelajari lebih lanjut

Lihat semua panduan teknis

Semua fitur

Serverless Spark	Deploy aplikasi dan pipeline Spark yang menskalakan otomatis tanpa penyediaan atau penyesuaian infrastruktur manual apa pun.
Cluster yang ukurannya dapat disesuaikan	Buat dan skalakan cluster dengan cepat menggunakan berbagai jenis virtual machine, ukuran disk, jumlah node, dan opsi jaringan.
Cluster penskalaan otomatis	Penskalaan otomatis Dataproc menyediakan mekanisme untuk mengotomatiskan pengelolaan resource cluster serta memungkinkan penambahan dan pengurangan otomatis worker (node) cluster.
Terintegrasi dengan Cloud	Integrasi bawaan dengan Cloud Storage, BigQuery, Dataplex, Vertex AI, Composer, Bigtable, Cloud Logging, dan Cloud Monitoring, sehingga memberi Anda platform data yang lebih lengkap dan andal.
Konfigurasi otomatis atau manual	Dataproc akan otomatis mengonfigurasi hardware dan software, serta memberi Anda kontrol manual.
Developer tools	Ada banyak cara untuk mengelola cluster, termasuk UI web yang mudah digunakan, Cloud SDK, RESTful API, dan akses SSH.
Tindakan inisialisasi	Jalankan tindakan inisialisasi untuk menginstal atau menyesuaikan setelan dan library yang diperlukan saat cluster dibuat.
Komponen opsional	Gunakan komponen opsional untuk menginstal dan mengonfigurasi komponen tambahan pada cluster. Komponen opsional terintegrasi dengan komponen Dataproc dan menawarkan lingkungan yang terkonfigurasi sepenuhnya untuk Zeppelin, Presto, serta komponen software open source lainnya yang terkait dengan ekosistem Apache Hadoop dan Apache Spark.
Image dan container kustom	Dataproc Serverless Spark dapat disediakan dengan container docker kustom. Cluster Dataproc dapat disediakan dengan image kustom yang berisi paket sistem operasi Linux yang sudah di-instal sebelumnya.
Virtual machine fleksibel	Cluster dapat menggunakan jenis mesin kustom dan preemptible virtual machine agar ukurannya sesuai untuk kebutuhan Anda.
Template alur kerja	Template alur kerja Dataproc menyediakan mekanisme yang fleksibel dan mudah digunakan untuk mengelola serta menjalankan alur kerja. Template alur kerja adalah konfigurasi alur kerja yang dapat digunakan ulang yang mendefinisikan grafik tugas beserta informasi mengenai di mana tugas-tugas tersebut dijalankan.
Pengelolaan kebijakan otomatis	Lakukan standardisasi pada kebijakan keamanan, biaya, dan infrastruktur di fleet cluster. Anda dapat membuat kebijakan untuk pengelolaan sumber daya, keamanan, atau jaringan di level project. Anda juga dapat memudahkan pengguna menggunakan image, komponen, metastore, dan layanan periferal yang tepat lainnya, yang memungkinkan Anda mengelola fleet cluster dan kebijakan Serverless Spark pada masa mendatang.
Pemberitahuan cerdas	Pemberitahuan yang direkomendasikan Dataproc memungkinkan pelanggan menyesuaikan batas pemberitahuan yang sudah dikonfigurasi untuk mendapatkan pemberitahuan mengenai cluster yang tidak ada aktivitas serta tidak terkendali, tugas, cluster yang digunakan secara berlebihan, dan lain-lain. Pelanggan dapat menyesuaikan pemberitahuan ini lebih lanjut, bahkan membuat kemampuan pengelolaan tugas dan cluster lanjutan. Dengan kemampuan ini, pelanggan dapat mengelola fleet-nya dalam skala besar.
Dataproc di Google Distributed Cloud (GDC)	Dataproc on GDC memungkinkan Anda menjalankan Spark pada GDC Edge Appliance di pusat data Anda. Sekarang Anda dapat menggunakan aplikasi Spark yang sama di Google Cloud serta pada data sensitif di pusat data Anda.
Dataproc Metastore Multi-regional	Dataproc Metastore adalah Hive metastore (HMS) yang terkelola sepenuhnya dan sangat tersedia dengan kontrol akses yang terperinci. Dataproc Metastore multi-regional menyediakan DR aktif-aktif dan ketahanan terhadap pemadaman layanan regional.

Harga

Harga Dataproc didasarkan pada jumlah vCPU dan durasi waktu vCPU tersebut berjalan. Meskipun harga ditampilkan sebagai tarif per jam, kami membebankan biaya berdasarkan hitungan detik sehingga Anda hanya perlu membayar sesuai penggunaan.

Contoh: Sebuah cluster dengan 6 node (1 main + 5 worker) yang terdiri dari 4 CPU, yang masing-masing berjalan selama 2 jam, akan berharga $0,48. Biaya Dataproc = jumlah vCPU * jam * harga Dataproc = 24 * 2 * $0,01 = $0,48

Lihat halaman harga untuk mengetahui detailnya.

Lihat detail harga

Partner

Dataproc berintegrasi dengan para partner utama untuk melengkapi investasi dan keahlian yang sudah Anda miliki.