
Jalankan workload Spark dan open source yang paling menuntut dengan lebih mudah menggunakan layanan terkelola, lebih cerdas dengan Gemini, dan lebih cepat dengan Lightning Engine.
Apache Spark adalah merek dagang dari Apache Software Foundation.
Fitur
Percepat tugas Spark Anda yang paling menuntut dengan Lightning Engine. Mesin generasi berikutnya dari kami menawarkan performa 4,3 kali lebih cepat dengan pengoptimalan terkelola, sehingga mengurangi TCO dan penyesuaian manual. Tersedia sekarang dalam pratinjau untuk Dataproc.
Percepat seluruh alur kerja Anda dengan Gemini. Dapatkan bantuan yang didukung AI untuk menulis dan men-debug kode PySpark, serta gunakan Gemini Cloud Assist untuk mendapatkan analisis penyebab masalah secara otomatis pada tugas yang gagal atau berjalan lambat, sehingga mengurangi waktu pemecahan masalah secara signifikan
Membangun dan mengoperasionalkan seluruh siklus proses machine learning Anda. Mempercepat inferensi dan pelatihan model dengan dukungan GPU, yang didukung oleh NVIDIA RAPIDS™, dan Runtime ML yang telah dikonfigurasi sebelumnya. Kemudian, terintegrasi dengan ekosistem Google Cloud AI yang lebih luas untuk mengorkestrasi MLOps secara menyeluruh dengan Vertex AI Pipelines.
Terhubung secara native ke arsitektur lakehouse terbuka. Memproses data langsung dari BigQuery, mengorkestrasi MLOps dengan Vertex AI Pipelines, dan menyatukan tata kelola atas data terbuka Anda dengan BigLake dan Dataplex Universal Catalog.
Sesuaikan setiap cluster Dataproc dengan kebutuhan Anda. Kembangkan di Python, Scala, atau Java, pilih dari berbagai jenis mesin, gunakan tindakan inisialisasi untuk menginstal software kustom, dan gunakan image container Anda sendiri untuk portabilitas maksimum.
Hindari ketergantungan pada vendor. Meskipun Dataproc dioptimalkan untuk Apache Spark, Dataproc mendukung lebih dari 30 alat open source seperti Apache Hadoop, Flink, Trino, dan Presto. Vertex AI terintegrasi secara lancar dengan orchestrator populer seperti Airflow dan dapat diperluas dengan Kubernetes serta Docker untuk fleksibilitas maksimum.
Terintegrasi dengan lancar pada postur keamanan Anda. Manfaatkan IAM untuk izin terperinci, Kontrol Layanan VPC untuk keamanan jaringan, dan Kerberos untuk autentikasi yang kuat pada cluster Spark Anda.
Penggunaan Umum
Melakukan lift-and-shift workload Apache Hadoop dan Spark lokal dengan lancar. Dataproc juga merupakan jalur ideal untuk beralih dari 'Spark DIY' yang dikelola sendiri ke layanan yang terkelola sepenuhnya. Dukungan Dataproc untuk berbagai versi Spark, termasuk versi 2.x lama, dapat menyederhanakan migrasi dengan mengurangi kebutuhan untuk refaktorisasi kode dengan segera. Dengan demikian, Anda dapat memanfaatkan keterampilan open source yang sudah dimiliki tim untuk jalur yang lebih cepat ke cloud.
Melakukan lift-and-shift workload Apache Hadoop dan Spark lokal dengan lancar. Dataproc juga merupakan jalur ideal untuk beralih dari 'Spark DIY' yang dikelola sendiri ke layanan yang terkelola sepenuhnya. Dukungan Dataproc untuk berbagai versi Spark, termasuk versi 2.x lama, dapat menyederhanakan migrasi dengan mengurangi kebutuhan untuk refaktorisasi kode dengan segera. Dengan demikian, Anda dapat memanfaatkan keterampilan open source yang sudah dimiliki tim untuk jalur yang lebih cepat ke cloud.
Menggunakan Dataproc sebagai mesin pemrosesan open source yang canggih untuk data lakehouse modern Anda. Memproses data dalam format terbuka seperti Apache Iceberg langsung dari data lake Anda, sehingga menghilangkan data silo dan pergerakan data yang mahal. Berintegrasi secara lancar dengan BigQuery dan Dataplex Universal Catalog untuk platform analisis dan tata kelola multi-engine yang benar-benar terpadu.
Menggunakan Dataproc sebagai mesin pemrosesan open source yang canggih untuk data lakehouse modern Anda. Memproses data dalam format terbuka seperti Apache Iceberg langsung dari data lake Anda, sehingga menghilangkan data silo dan pergerakan data yang mahal. Berintegrasi secara lancar dengan BigQuery dan Dataplex Universal Catalog untuk platform analisis dan tata kelola multi-engine yang benar-benar terpadu.
Membangun dan mengorkestrasi pipeline ETL Spark yang kompleks dan berjalan lama dengan keandalan dan skala tingkat perusahaan. Manfaatkan fitur canggih seperti penskalaan otomatis untuk mengoptimalkan biaya dan performa, serta gunakan template alur kerja untuk mengotomatiskan dan mengelola tugas paling penting di tingkat produksi Anda dari awal hingga akhir.
Membangun dan mengorkestrasi pipeline ETL Spark yang kompleks dan berjalan lama dengan keandalan dan skala tingkat perusahaan. Manfaatkan fitur canggih seperti penskalaan otomatis untuk mengoptimalkan biaya dan performa, serta gunakan template alur kerja untuk mengotomatiskan dan mengelola tugas paling penting di tingkat produksi Anda dari awal hingga akhir.
Menyediakan lingkungan cluster Spark yang canggih dan dapat disesuaikan untuk tim data science guna melakukan pelatihan model berskala besar dan inferensi batch. Dengan Runtime ML yang telah dikonfigurasi sebelumnya dan dukungan GPU, Anda dapat mempercepat seluruh siklus proses ML dan berintegrasi dengan Vertex AI untuk membangun dan mengoperasionalkan pipeline MLOps secara menyeluruh.
Menyediakan lingkungan cluster Spark yang canggih dan dapat disesuaikan untuk tim data science guna melakukan pelatihan model berskala besar dan inferensi batch. Dengan Runtime ML yang telah dikonfigurasi sebelumnya dan dukungan GPU, Anda dapat mempercepat seluruh siklus proses ML dan berintegrasi dengan Vertex AI untuk membangun dan mengoperasionalkan pipeline MLOps secara menyeluruh.
Melampaui Spark dan Hadoop tanpa menambah beban operasional. Men-deploy cluster khusus dengan Trino untuk SQL interaktif, Flink untuk stream processing tingkat lanjut, atau mesin open source khusus lainnya. Dataproc menyediakan bidang kontrol terpadu untuk mengelola ekosistem yang beragam ini dengan kemudahan layanan terkelola.
Melampaui Spark dan Hadoop tanpa menambah beban operasional. Men-deploy cluster khusus dengan Trino untuk SQL interaktif, Flink untuk stream processing tingkat lanjut, atau mesin open source khusus lainnya. Dataproc menyediakan bidang kontrol terpadu untuk mengelola ekosistem yang beragam ini dengan kemudahan layanan terkelola.
Harga
| Cluster terkelola Dataproc | Dataproc menawarkan harga bayar sesuai penggunaan. Optimalkan biaya dengan penskalaan otomatis dan preemptible VM. |
|---|---|
Komponen penting |
|
Contoh | Cluster dengan 6 node (1 main + 5 worker) yang terdiri dari 4 CPU, yang masing-masing berjalan selama 2 jam, akan berharga $0,48. Biaya Dataproc = jumlah vCPU * jam * harga Dataproc = 24 * 2 * $0,01 = $0,48 |
Cluster terkelola Dataproc
Dataproc menawarkan harga bayar sesuai penggunaan. Optimalkan biaya dengan penskalaan otomatis dan preemptible VM.
Komponen penting
Contoh
Cluster dengan 6 node (1 main + 5 worker) yang terdiri dari 4 CPU, yang masing-masing berjalan selama 2 jam, akan berharga $0,48. Biaya Dataproc = jumlah vCPU * jam * harga Dataproc = 24 * 2 * $0,01 = $0,48
Kasus Bisnis
Membangun kasus bisnis Anda untuk Google Dataproc
Manfaat ekonomi Google Cloud Dataproc dan Serverless Spark dibandingkan solusi alternatif
Lihat bagaimana Dataproc memberikan penghematan TCO dan nilai bisnis yang signifikan dibandingkan dengan solusi lokal dan cloud lainnya.
Dalam laporan:
Temukan bagaimana Dataproc dan Serverless untuk Apache Spark dapat memberikan penghematan biaya sebesar 18% hingga 60% dibandingkan dengan alternatif Spark berbasis cloud lainnya.
Pelajari cara Google Cloud Serverless untuk Apache Spark memberikan performa harga 21% hingga 55% lebih baik dibandingkan penawaran Spark serverless lainnya.
Pelajari cara Dataproc dan Google Cloud Serverless untuk Apache Spark menyederhanakan deployment Spark dan membantu mengurangi kompleksitas operasional.
FAQ
Pilih Dataproc jika Anda memerlukan kontrol terperinci atas lingkungan cluster, memigrasikan workload Hadoop/Spark yang ada, atau memerlukan cluster persisten dengan beragam alat open source. Untuk mengetahui perincian mendetail tentang perbedaan model pengelolaan, workload ideal, dan struktur biaya.
Ya. Dataproc adalah platform terpadu untuk stack data open source modern. Dataproc mendukung lebih dari 30 komponen, sehingga Anda dapat menjalankan cluster khusus alat seperti Flink untuk stream processing atau Trino untuk SQL interaktif, semuanya dalam satu layanan terkelola.
Anda memiliki tingkat kontrol yang tinggi. Dataproc memungkinkan Anda menyesuaikan jenis mesin, ukuran disk, dan konfigurasi jaringan. Anda juga dapat menggunakan tindakan inisialisasi untuk menginstal software kustom, menggunakan image container Anda sendiri, dan memanfaatkan Spot VM untuk mengoptimalkan biaya.