Apache Spark di Google Cloud

Cara baru untuk menjalankan Spark dengan lebih mudah, cerdas, dan cepat.

Jalankan workload Apache Spark di Google Cloud dengan beban operasional yang lebih sedikit, bantuan yang lebih didukung AI, dan opsi harga-performa yang lebih baik. Fokus pada kode, bukan cluster.


Manfaat

Pengalaman yang lebih baik untuk Apache Spark di Google Cloud

Lebih mudah - Meniadakan beban operasional Spark

Pilih antara Google Cloud Serverless untuk Apache Spark tanpa pengoperasian atau cluster Dataproc terkelola. Keduanya mengotomatiskan kompleksitas infrastruktur sehingga Anda dapat mempercepat siklus proses pengembangan.

Bandingkan kedua opsi

Lebih cerdas - Pengembangan Spark yang didukung AI

Percepat seluruh alur kerja Anda dengan Gemini di Dataproc dan Google Cloud Serverless untuk Apache Spark. Dapatkan bantuan yang didukung Gemini untuk membuat dan men-debug kode, serta memecahkan masalah tugas yang gagal. 

Pelajari Gemini Code Assist

Lebih cepat - Mempercepat performa Spark

Dapatkan rasio harga-performa terbaik di industri secara otomatis. Untuk tugas yang paling menuntut, dapatkan performa 4,3 kali lebih cepat dengan Lightning Engine. Mesin ini mengurangi TCO dan mempercepat waktu perolehan insight.

Pelajari Lightning Engine

Fitur utama

Pilih Spark yang tepat untuk workload Anda

Pilih Serverless untuk Apache Spark demi kemudahan tanpa pengoperasian atau Dataproc untuk cluster terkelola dengan penyesuaian mendalam.

Lihat panduan keputusan

Google Cloud Serverless untuk Apache Spark

Fokuskan perhatian hanya pada kode Anda dan percepat pengembangan. Dengan paket untuk batch processing yang hemat biaya dan AI/ML berperforma tinggi, paket ini sangat cocok untuk pipeline Apache Spark baru, analisis interaktif, dan workload dengan permintaan yang tidak dapat diprediksi, di mana model "NoOps" lebih disukai.

Terbaik untuk: Data scientist & engineer ML, kueri ad-hoc, aplikasi baru, produktivitas developer.

Pelajari Serverless Spark

Dataproc

Dapatkan kontrol maksimum atas lingkungan cluster Anda. Sangat cocok untuk memigrasikan workload Apache Hadoop/Spark yang ada, menjalankan cluster persisten yang berjalan lama, atau menggunakan ekosistem open source yang beragam.

Paling cocok untuk: Engineering dan operasi perusahaan, migrasi lokal, tugas yang berjalan lama, penyesuaian mendalam.

Pelajari Dataproc

Dokumentasi

Dokumentasi

Tutorial

Menjalankan tugas Spark serverless pertama Anda

Ikuti panduan memulai cepat ini untuk merasakan kecepatan dan kemudahan Spark serverless. Pelajari cara mengirimkan tugas batch PySpark menggunakan Google Cloud CLI.

Tutorial

Membuat cluster Dataproc terkelola

Tutorial ini memandu Anda membuat cluster Dataproc menggunakan Konsol Google Cloud. Pelajari cara mengonfigurasi dan menyediakan lingkungan terkelola untuk workload Spark dan Hadoop Anda.

Best Practice

Menyatukan analisis Anda: SQL dan Spark pada satu salinan data

Berhenti memilih antara keunggulan SQL dan fleksibilitas Spark. BigLake memungkinkan Anda menggunakan kedua mesin tersebut pada data yang sama dan diatur. Ini adalah pengalaman terpadu yang memungkinkan Anda menggunakan alat terbaik untuk setiap tugas.

Best Practice

Mempercepat seluruh siklus proses AI dan ML Anda

Beralih dari persiapan data ke inferensi dan pelatihan model dengan lebih cepat. Paket Premium kami dirancang untuk AI/ML, sehingga Anda dapat menggunakan Runtime ML yang telah dikonfigurasi sebelumnya dengan dukungan GPU bawaan, seperti NVIDIA RAPIDS, untuk meniadakan penyiapan yang rumit.

Tidak menemukan yang Anda cari?


Apache Spark adalah merek dagang dari Apache Software Foundation.

** Kueri berasal dari standar TPC-DS dan standar TPC-H sehingga tidak dapat dibandingkan dengan hasil standar TPC-DS dan standar TPC-H yang dipublikasikan, karena proses ini tidak mematuhi semua spesifikasi standar TPC-DS dan standar TPC-H.

Langkah selanjutnya

Beri tahu kami masalah yang ingin Anda pecahkan. Pakar Google Cloud akan membantu Anda menemukan solusi terbaik.