Apache Spark di Google Cloud

Manfaatkan potensi penuh Spark di Google Cloud. Pilih kemudahan serverless atau kontrol cluster, yang didukung oleh pemrosesan berkecepatan tinggi, bantuan AI, dan konektivitas lakehouse terbuka yang lancar.

Manfaat

Meningkatkan produktivitas developer dan mendapatkan insight data lebih cepat

Spark tanpa hambatan untuk semua pengguna data

Jalankan Spark dengan mudah menggunakan BigQuery, Vertex AI, dan IDE menggunakan cluster serverless atau terkelola. Hilangkan integrasi kustom, sederhanakan alur kerja ETL ke ML, dan tingkatkan produktivitas dengan Gemini untuk kode dan operasi.


Kemudahan operasional dengan Serverless Spark

Google Cloud Serverless for Apache Spark menawarkan penskalaan otomatis instan dan konfigurasi mendekati nol. Dapatkan peningkatan performa kueri 4,3 kali lipat* dengan Lightning Engine (Pratinjau). Dataplex Universal Catalog menyatukan metadata, sehingga menyederhanakan operasi.

Jalankan Spark dengan cara pilihan Anda

Tidak ada solusi tunggal untuk semua situasi. Google Cloud memberi Anda fleksibilitas untuk memilih antara serverless, cluster terkelola, dan cluster komputasi untuk workload Spark Anda.

Fitur utama

Cara efektif untuk menjalankan Spark di Google Cloud

Google Cloud Serverless untuk Apache Spark

Menggunakan Google Cloud Serverless untuk Apache Spark guna meningkatkan produktivitas dan performa dengan Lightning Engine* dan Gemini. Pengalaman ini adalah lingkungan yang terintegrasi secara mendalam untuk menjalankan workload Apache Spark dan SQL langsung dari BigQuery. Layanan ini menyediakan keamanan terpadu, metadata runtime menggunakan metastore BigLake, dan tata kelola melalui Dataplex Universal Catalog. Maksimalkan produktivitas dengan CI/CD terintegrasi, Gemini di notebook, dan hindari pengelolaan cluster Apache Spark.

* Kueri berasal dari standar TPC-DS dan standar TPC-H sehingga tidak dapat dibandingkan dengan hasil standar TPC-DS dan standar TPC-H yang dipublikasikan, karena operasi ini tidak mematuhi semua persyaratan spesifikasi standar TPC-DS dan standar TPC-H.

Cluster Spark, Hadoop, dan OSS terkelola dengan Dataproc

Dataproc adalah layanan yang sangat skalabel dan terkelola sepenuhnya untuk men-deploy dan mengoperasikan Spark, Hadoop, serta ekosistem yang luas dengan lebih dari 30 alat open source. Integrasinya dengan produk dan layanan Google Cloud yang lebih luas, termasuk Lightning Engine untuk Dataproc di Google Compute Engine (paket premium), menjadikannya ideal untuk modernisasi data lake, pipeline ETL yang efisien, dan inisiatif data science berskala besar yang aman, di mana kontrol cluster sangat penting.

Data Science dengan Apache Spark di Google Cloud

Entah Anda lebih memilih kemudahan zero-ops dari Google Cloud Serverless untuk Apache Spark atau kontrol cluster Dataproc terkelola, Anda dapat mempercepat seluruh siklus proses machine learning Anda. Manfaat:

  • Integrasi Lancar: Terhubung dengan mudah ke BigQuery untuk akses data dan Vertex AI untuk MLOps, membangun pipeline data science menyeluruh.
  • Produktivitas Developer: Manfaatkan Gemini untuk mendapatkan insight dan bantuan coding di lingkungan notebook seperti BigQuery Studio dan Vertex AI Workbench.
  • Kesiapan AI/ML: Manfaatkan library ML dalam bentuk paket dan akselerasi GPU yang tersedia dengan cluster Spark dan Dataproc serverless untuk tugas pelatihan dan inferensi yang menuntut.
  • Iterasi yang Lebih Cepat: Berfokus pada pengembangan dan eksperimen apa pun yang Anda pilih.

Spark melalui Vertex AI

Kembangkan dan operasionalkan Spark untuk data science tanpa hambatan dengan Vertex AI. Gunakan Spark dari Vertex AI Workbench untuk pengembangan interaktif dengan keamanan bawaan dan bantuan Gemini. Integrasikan pemrosesan Spark ke dalam Vertex AI Pipelines untuk MLOps yang andal.

Dukungan format tabel open source untuk lakehouse Anda

Penawaran Spark Google Cloud memberikan kompatibilitas yang kuat dengan format open source seperti Apache Iceberg, Delta Lake, dan Hudi. Manfaatkan metastore BigLake atau Metastore Dataproc untuk pengelolaan metadata terpadu di berbagai format, sehingga memungkinkan arsitektur lakehouse terbuka tempat Anda dapat memproses data dengan mesin Spark pilihan Anda.


Apache Spark adalah merek dagang dari Apache Software Foundation.

Langkah selanjutnya

Beri tahu kami masalah yang ingin Anda pecahkan. Pakar Google Cloud akan membantu Anda menemukan solusi terbaik.