Sblocca tutto il potenziale di Spark su Google Cloud. Scegli la semplicità serverless o il controllo del cluster, potenziato da elaborazione ad alta velocità, assistenza AI e connettività lakehouse aperta e senza interruzioni.
Vantaggi
Semplicità operativa con Spark serverless
Google Cloud Serverless per Apache Spark offre scalabilità automatica istantanea con configurazione quasi nulla. Ottieni un aumento delle prestazioni delle query di 4,3 volte* con Lightning Engine (anteprima). Dataplex Universal Catalog unifica i metadati, semplificando le operazioni.
Esegui Spark nel modo che preferisci
Non tutte le soluzioni vanno bene per tutti. Google Cloud ti offre la flessibilità di scegliere tra serverless, cluster gestiti e cluster di calcolo per i tuoi workload Spark.
Funzionalità principali
Utilizzo di Google Cloud Serverless per Apache Spark per aumentare la produttività e le prestazioni con Lightning Engine* e Gemini. Questa esperienza è un ambiente profondamente integrato per l'esecuzione di workload Apache Spark e SQL direttamente da BigQuery. Offre sicurezza unificata, metadati di runtime utilizzando BigLake Metastore e governance tramite Dataplex Universal Catalog. Massimizza la produttività con CI/CD integrato, Gemini nei notebook ed elimina la gestione dei cluster Apache Spark.
* Le query derivano dallo standard TPC-DS e standard TPC-H e come tali non sono comparabili ai risultati pubblicati dello standard TPC-DS e standard TPC-H, poiché queste esecuzioni non sono conformi a tutti i requisiti delle specifiche dello standard TPC-DS e standard TPC-H.
Dataproc è un servizio completamente gestito e altamente scalabile per il deployment e l'operatività di Spark dedicato, Hadoop e di un vasto ecosistema di oltre 30 strumenti open source. La sua integrazione con i più ampi prodotti e servizi Google Cloud, tra cui Lightning Engine per Dataproc su Google Compute Engine (livello Premium), lo rende ideale per la modernizzazione dei data lake, le pipeline ETL efficienti e le iniziative di data science sicure su larga scala in cui il controllo del cluster è fondamentale.
Che tu preferisca la semplicità a zero operazioni di Google Cloud Serverless per Apache Spark o il controllo dei cluster Dataproc gestiti, puoi accelerare l'intero ciclo di vita del machine learning. Approfitta di:
Sviluppa e metti in produzione Spark per la data science senza problemi con Vertex AI. Utilizza Spark da Vertex AI Workbench per lo sviluppo interattivo con sicurezza integrata e assistenza Gemini. Integra l'elaborazione Spark in Vertex AI Pipelines per MLOps robusti.
Le offerte Spark di Google Cloud offrono una solida compatibilità con formati open source come Apache Iceberg, Delta Lake e Hudi. Sfrutta BigLake Metastore o Dataproc Metastore per una gestione unificata dei metadati in tutti i formati, attivando un'architettura lakehouse aperta in cui puoi elaborare i dati con il motore Spark che preferisci.
Apache Spark è un marchio di Apache Software Foundation.
Parlaci delle sfide che stai affrontando. Un esperto Google Cloud ti aiuterà a trovare la soluzione migliore.