Logo Dataproc

Dataproc

Apache Spark dan Hadoop terkelola dengan Google Dataproc

Jalankan workload Spark dan open source yang paling menuntut dengan lebih mudah menggunakan layanan terkelola, lebih cerdas dengan Gemini, dan lebih cepat dengan Lightning Engine.

Apache Spark adalah merek dagang dari Apache Software Foundation.

Fitur

Performa terbaik di industri

Percepat tugas Spark Anda yang paling menuntut dengan Lightning Engine. Mesin generasi berikutnya dari kami menawarkan performa 4,3 kali lebih cepat dengan pengoptimalan terkelola, sehingga mengurangi TCO dan penyesuaian manual. Tersedia sekarang dalam pratinjau untuk Dataproc. 

Pengembangan dan operasi yang didukung AI

Percepat seluruh alur kerja Anda dengan Gemini. Dapatkan bantuan yang didukung AI untuk menulis dan men-debug kode PySpark, serta gunakan Gemini Cloud Assist untuk mendapatkan analisis penyebab masalah secara otomatis pada tugas yang gagal atau berjalan lambat, sehingga mengurangi waktu pemecahan masalah secara signifikan

Siap untuk AI/ML perusahaan

Membangun dan mengoperasionalkan seluruh siklus proses machine learning Anda. Mempercepat inferensi dan pelatihan model dengan dukungan GPU, yang didukung oleh NVIDIA RAPIDS™, dan Runtime ML yang telah dikonfigurasi sebelumnya. Kemudian, terintegrasi dengan ekosistem Google Cloud AI yang lebih luas untuk mengorkestrasi MLOps secara menyeluruh dengan Vertex AI Pipelines.

Integrasi lakehouse yang canggih

Terhubung secara native ke arsitektur lakehouse terbuka. Memproses data langsung dari BigQuery, mengorkestrasi MLOps dengan Vertex AI Pipelines, dan menyatukan tata kelola atas data terbuka Anda dengan BigLake dan Dataplex Universal Catalog.

Kontrol dan penyesuaian yang tidak tertandingi

Sesuaikan setiap cluster Dataproc dengan kebutuhan Anda. Kembangkan di Python, Scala, atau Java, pilih dari berbagai jenis mesin, gunakan tindakan inisialisasi untuk menginstal software kustom, dan gunakan image container Anda sendiri untuk portabilitas maksimum.

Dibuat untuk stack data open source modern

Hindari ketergantungan pada vendor. Meskipun Dataproc dioptimalkan untuk Apache Spark, Dataproc mendukung lebih dari 30 alat open source seperti Apache Hadoop, Flink, Trino, dan Presto. Vertex AI terintegrasi secara lancar dengan orchestrator populer seperti Airflow dan dapat diperluas dengan Kubernetes serta Docker untuk fleksibilitas maksimum.

Keamanan tingkat perusahaan

Terintegrasi dengan lancar pada postur keamanan Anda. Manfaatkan IAM untuk izin terperinci, Kontrol Layanan VPC untuk keamanan jaringan, dan Kerberos untuk autentikasi yang kuat pada cluster Spark Anda.

Cara Kerjanya

Mengonfigurasi cluster kustom, mengirimkan tugas Spark untuk memproses data dari BigQuery dan Cloud Storage. Mengelola performa dan tata kelola dengan pemantauan dan keamanan terintegrasi.

Penggunaan Umum

Migrasi cloud

Melakukan lift-and-shift workload Apache Hadoop dan Spark lokal dengan lancar. Dataproc juga merupakan jalur ideal untuk beralih dari 'Spark DIY' yang dikelola sendiri ke layanan yang terkelola sepenuhnya. Dukungan Dataproc untuk berbagai versi Spark, termasuk versi 2.x lama, dapat menyederhanakan migrasi dengan mengurangi kebutuhan untuk refaktorisasi kode dengan segera. Dengan demikian, Anda dapat memanfaatkan keterampilan open source yang sudah dimiliki tim untuk jalur yang lebih cepat ke cloud.

    Migrasi cloud

    Melakukan lift-and-shift workload Apache Hadoop dan Spark lokal dengan lancar. Dataproc juga merupakan jalur ideal untuk beralih dari 'Spark DIY' yang dikelola sendiri ke layanan yang terkelola sepenuhnya. Dukungan Dataproc untuk berbagai versi Spark, termasuk versi 2.x lama, dapat menyederhanakan migrasi dengan mengurangi kebutuhan untuk refaktorisasi kode dengan segera. Dengan demikian, Anda dapat memanfaatkan keterampilan open source yang sudah dimiliki tim untuk jalur yang lebih cepat ke cloud.

      Modernisasi lakehouse

      Menggunakan Dataproc sebagai mesin pemrosesan open source yang canggih untuk data lakehouse modern Anda. Memproses data dalam format terbuka seperti Apache Iceberg langsung dari data lake Anda, sehingga menghilangkan data silo dan pergerakan data yang mahal. Berintegrasi secara lancar dengan BigQuery dan Dataplex Universal Catalog untuk platform analisis dan tata kelola multi-engine yang benar-benar terpadu.

        Modernisasi lakehouse

        Menggunakan Dataproc sebagai mesin pemrosesan open source yang canggih untuk data lakehouse modern Anda. Memproses data dalam format terbuka seperti Apache Iceberg langsung dari data lake Anda, sehingga menghilangkan data silo dan pergerakan data yang mahal. Berintegrasi secara lancar dengan BigQuery dan Dataplex Universal Catalog untuk platform analisis dan tata kelola multi-engine yang benar-benar terpadu.

          Data engineering

          Membangun dan mengorkestrasi pipeline ETL Spark yang kompleks dan berjalan lama dengan keandalan dan skala tingkat perusahaan. Manfaatkan fitur canggih seperti penskalaan otomatis untuk mengoptimalkan biaya dan performa, serta gunakan template alur kerja untuk mengotomatiskan dan mengelola tugas paling penting di tingkat produksi Anda dari awal hingga akhir.

          Kutipan cepat

          Data engineering

          Membangun dan mengorkestrasi pipeline ETL Spark yang kompleks dan berjalan lama dengan keandalan dan skala tingkat perusahaan. Manfaatkan fitur canggih seperti penskalaan otomatis untuk mengoptimalkan biaya dan performa, serta gunakan template alur kerja untuk mengotomatiskan dan mengelola tugas paling penting di tingkat produksi Anda dari awal hingga akhir.

          Kutipan cepat

          Data science dalam skala besar

          Menyediakan lingkungan cluster Spark yang canggih dan dapat disesuaikan untuk tim data science guna melakukan pelatihan model berskala besar dan inferensi batch. Dengan Runtime ML yang telah dikonfigurasi sebelumnya dan dukungan GPU, Anda dapat mempercepat seluruh siklus proses ML dan berintegrasi dengan Vertex AI untuk membangun dan mengoperasionalkan pipeline MLOps secara menyeluruh.

          Sorotan notebook Spark

          Data science dalam skala besar

          Menyediakan lingkungan cluster Spark yang canggih dan dapat disesuaikan untuk tim data science guna melakukan pelatihan model berskala besar dan inferensi batch. Dengan Runtime ML yang telah dikonfigurasi sebelumnya dan dukungan GPU, Anda dapat mempercepat seluruh siklus proses ML dan berintegrasi dengan Vertex AI untuk membangun dan mengoperasionalkan pipeline MLOps secara menyeluruh.

          Sorotan notebook Spark

          Mesin analisis OSS yang fleksibel

          Melampaui Spark dan Hadoop tanpa menambah beban operasional. Men-deploy cluster khusus dengan Trino untuk SQL interaktif, Flink untuk stream processing tingkat lanjut, atau mesin open source khusus lainnya. Dataproc menyediakan bidang kontrol terpadu untuk mengelola ekosistem yang beragam ini dengan kemudahan layanan terkelola.

          Dukungan OSS

            Mesin analisis OSS yang fleksibel

            Melampaui Spark dan Hadoop tanpa menambah beban operasional. Men-deploy cluster khusus dengan Trino untuk SQL interaktif, Flink untuk stream processing tingkat lanjut, atau mesin open source khusus lainnya. Dataproc menyediakan bidang kontrol terpadu untuk mengelola ekosistem yang beragam ini dengan kemudahan layanan terkelola.

            Dukungan OSS

              Harga

              Cluster terkelola DataprocDataproc menawarkan harga bayar sesuai penggunaan. Optimalkan biaya dengan penskalaan otomatis dan preemptible VM.

              Komponen penting

              • Instance Compute Engine (vCPU, memori)
              • Biaya layanan Dataproc (per vCPU-jam)
              • Persistent Disk


              Contoh

              Cluster dengan 6 node (1 main + 5 worker) yang terdiri dari 4 CPU, yang masing-masing berjalan selama 2 jam, akan berharga $0,48. Biaya Dataproc = jumlah vCPU * jam * harga Dataproc = 24 * 2 * $0,01 = $0,48

              Cluster terkelola Dataproc

              Dataproc menawarkan harga bayar sesuai penggunaan. Optimalkan biaya dengan penskalaan otomatis dan preemptible VM.

              Komponen penting

              • Instance Compute Engine (vCPU, memori)
              • Biaya layanan Dataproc (per vCPU-jam)
              • Persistent Disk


              Contoh

              Cluster dengan 6 node (1 main + 5 worker) yang terdiri dari 4 CPU, yang masing-masing berjalan selama 2 jam, akan berharga $0,48. Biaya Dataproc = jumlah vCPU * jam * harga Dataproc = 24 * 2 * $0,01 = $0,48

              Kalkulator harga

              Perkirakan biaya Dataproc bulanan Anda, termasuk harga dan biaya khusus per region.

              Penawaran kustom

              Hubungi tim penjualan kami untuk mendapatkan penawaran harga khusus bagi organisasi Anda.

              Memulai bukti konsep Anda

              Kredit senilai $300 untuk pelanggan baru

              Punya project besar?

              Mengirimkan tugas Spark menggunakan template

              Tutorial: Konektor Dataproc Spark ke BigQuery

              Lihat dokumentasi Dataproc untuk informasi mendetail

              Kasus Bisnis

               Membangun kasus bisnis Anda untuk Google Dataproc


              Manfaat ekonomi Google Cloud Dataproc dan Serverless Spark dibandingkan solusi alternatif

              Lihat bagaimana Dataproc memberikan penghematan TCO dan nilai bisnis yang signifikan dibandingkan dengan solusi lokal dan cloud lainnya.

              Dalam laporan:

              Temukan bagaimana Dataproc dan Serverless untuk Apache Spark dapat memberikan penghematan biaya sebesar 18% hingga 60% dibandingkan dengan alternatif Spark berbasis cloud lainnya.

              Pelajari cara Google Cloud Serverless untuk Apache Spark memberikan performa harga 21% hingga 55% lebih baik dibandingkan penawaran Spark serverless lainnya.

              Pelajari cara Dataproc dan Google Cloud Serverless untuk Apache Spark menyederhanakan deployment Spark dan membantu mengurangi kompleksitas operasional.

              FAQ

              Kapan saya harus memilih Dataproc dibandingkan Google Cloud Serverless untuk Apache Spark?

              Pilih Dataproc jika Anda memerlukan kontrol terperinci atas lingkungan cluster, memigrasikan workload Hadoop/Spark yang ada, atau memerlukan cluster persisten dengan beragam alat open source. Untuk mengetahui perincian mendetail tentang perbedaan model pengelolaan, workload ideal, dan struktur biaya.

              Lihat panduan lengkap kami.

              Ya. Dataproc adalah platform terpadu untuk stack data open source modern. Dataproc mendukung lebih dari 30 komponen, sehingga Anda dapat menjalankan cluster khusus alat seperti Flink untuk stream processing atau Trino untuk SQL interaktif, semuanya dalam satu layanan terkelola.

              Lihat semua komponen opsional.

               Anda memiliki tingkat kontrol yang tinggi. Dataproc memungkinkan Anda menyesuaikan jenis mesin, ukuran disk, dan konfigurasi jaringan. Anda juga dapat menggunakan tindakan inisialisasi untuk menginstal software kustom, menggunakan image container Anda sendiri, dan memanfaatkan Spot VM untuk mengoptimalkan biaya.

              Pelajari cara menyesuaikan cluster.

              Dataproc