Manfaatkan potensi penuh Spark di Google Cloud. Pilih kemudahan serverless atau kontrol cluster, yang didukung oleh pemrosesan berkecepatan tinggi, bantuan AI, dan konektivitas lakehouse terbuka yang lancar.
Manfaat
Kemudahan operasional dengan Serverless Spark
Google Cloud Serverless for Apache Spark menawarkan penskalaan otomatis instan dan konfigurasi mendekati nol. Dapatkan peningkatan performa kueri 4,3 kali lipat* dengan Lightning Engine (Pratinjau). Dataplex Universal Catalog menyatukan metadata, sehingga menyederhanakan operasi.
Jalankan Spark dengan cara pilihan Anda
Tidak ada solusi tunggal untuk semua situasi. Google Cloud memberi Anda fleksibilitas untuk memilih antara serverless, cluster terkelola, dan cluster komputasi untuk workload Spark Anda.
Fitur utama
Menggunakan Google Cloud Serverless untuk Apache Spark guna meningkatkan produktivitas dan performa dengan Lightning Engine* dan Gemini. Pengalaman ini adalah lingkungan yang terintegrasi secara mendalam untuk menjalankan workload Apache Spark dan SQL langsung dari BigQuery. Layanan ini menyediakan keamanan terpadu, metadata runtime menggunakan metastore BigLake, dan tata kelola melalui Dataplex Universal Catalog. Maksimalkan produktivitas dengan CI/CD terintegrasi, Gemini di notebook, dan hindari pengelolaan cluster Apache Spark.
* Kueri berasal dari standar TPC-DS dan standar TPC-H sehingga tidak dapat dibandingkan dengan hasil standar TPC-DS dan standar TPC-H yang dipublikasikan, karena operasi ini tidak mematuhi semua persyaratan spesifikasi standar TPC-DS dan standar TPC-H.
Dataproc adalah layanan yang sangat skalabel dan terkelola sepenuhnya untuk men-deploy dan mengoperasikan Spark, Hadoop, serta ekosistem yang luas dengan lebih dari 30 alat open source. Integrasinya dengan produk dan layanan Google Cloud yang lebih luas, termasuk Lightning Engine untuk Dataproc di Google Compute Engine (paket premium), menjadikannya ideal untuk modernisasi data lake, pipeline ETL yang efisien, dan inisiatif data science berskala besar yang aman, di mana kontrol cluster sangat penting.
Entah Anda lebih memilih kemudahan zero-ops dari Google Cloud Serverless untuk Apache Spark atau kontrol cluster Dataproc terkelola, Anda dapat mempercepat seluruh siklus proses machine learning Anda. Manfaat:
Kembangkan dan operasionalkan Spark untuk data science tanpa hambatan dengan Vertex AI. Gunakan Spark dari Vertex AI Workbench untuk pengembangan interaktif dengan keamanan bawaan dan bantuan Gemini. Integrasikan pemrosesan Spark ke dalam Vertex AI Pipelines untuk MLOps yang andal.
Penawaran Spark Google Cloud memberikan kompatibilitas yang kuat dengan format open source seperti Apache Iceberg, Delta Lake, dan Hudi. Manfaatkan metastore BigLake atau Metastore Dataproc untuk pengelolaan metadata terpadu di berbagai format, sehingga memungkinkan arsitektur lakehouse terbuka tempat Anda dapat memproses data dengan mesin Spark pilihan Anda.
Apache Spark adalah merek dagang dari Apache Software Foundation.
Beri tahu kami masalah yang ingin Anda pecahkan. Pakar Google Cloud akan membantu Anda menemukan solusi terbaik.