Apache Spark su Google Cloud

Sblocca tutto il potenziale di Spark su Google Cloud. Scegli la semplicità serverless o il controllo del cluster, potenziato da elaborazione ad alta velocità, assistenza AI e connettività lakehouse aperta e senza interruzioni.

Vantaggi

Aumenta la produttività degli sviluppatori e ottieni insight sui dati più rapidi

Spark senza interruzioni per tutti gli utenti di dati

Esegui Spark facilmente con BigQuery, Vertex AI e IDE utilizzando cluster gestiti o serverless. Elimina le integrazioni personalizzate, semplifica i flussi di lavoro ETL in ML e aumenta la produttività con Gemini per il codice e le operazioni.


Semplicità operativa con Spark serverless

Google Cloud Serverless per Apache Spark offre scalabilità automatica istantanea con configurazione quasi nulla. Ottieni un aumento delle prestazioni delle query di 4,3 volte* con Lightning Engine (anteprima). Dataplex Universal Catalog unifica i metadati, semplificando le operazioni.

Esegui Spark nel modo che preferisci

Non tutte le soluzioni vanno bene per tutti. Google Cloud ti offre la flessibilità di scegliere tra serverless, cluster gestiti e cluster di calcolo per i tuoi workload Spark.

Funzionalità principali

Modi efficaci per eseguire Spark su Google Cloud

Google Cloud Serverless per Apache Spark

Utilizzo di Google Cloud Serverless per Apache Spark per aumentare la produttività e le prestazioni con Lightning Engine* e Gemini. Questa esperienza è un ambiente profondamente integrato per l'esecuzione di workload Apache Spark e SQL direttamente da BigQuery. Offre sicurezza unificata, metadati di runtime utilizzando BigLake Metastore e governance tramite Dataplex Universal Catalog. Massimizza la produttività con CI/CD integrato, Gemini nei notebook ed elimina la gestione dei cluster Apache Spark.

* Le query derivano dallo standard TPC-DS e standard TPC-H e come tali non sono comparabili ai risultati pubblicati dello standard TPC-DS e standard TPC-H, poiché queste esecuzioni non sono conformi a tutti i requisiti delle specifiche dello standard TPC-DS e standard TPC-H.

Cluster Spark, Hadoop e OSS gestiti con Dataproc

Dataproc è un servizio completamente gestito e altamente scalabile per il deployment e l'operatività di Spark dedicato, Hadoop e di un vasto ecosistema di oltre 30 strumenti open source. La sua integrazione con i più ampi prodotti e servizi Google Cloud, tra cui Lightning Engine per Dataproc su Google Compute Engine (livello Premium), lo rende ideale per la modernizzazione dei data lake, le pipeline ETL efficienti e le iniziative di data science sicure su larga scala in cui il controllo del cluster è fondamentale.

Data science con Apache Spark su Google Cloud

Che tu preferisca la semplicità a zero operazioni di Google Cloud Serverless per Apache Spark o il controllo dei cluster Dataproc gestiti, puoi accelerare l'intero ciclo di vita del machine learning. Approfitta di:

  • Integrazione perfetta: connettiti facilmente con BigQuery per l'accesso ai dati e con Vertex AI per MLOps, creando pipeline di data science end-to-end.
  • Produttività per gli sviluppatori: sfrutta Gemini per informazioni e assistenza per la programmazione in ambienti notebook come BigQuery Studio e Vertex AI Workbench.
  • Pronto per l'AI/ML: utilizza le librerie ML pre-pacchettizzate e l'accelerazione GPU disponibili sia con Spark serverless che con i cluster Dataproc per attività impegnative di addestramento e inferenza.
  • Iterazione più rapida: concentrati sullo sviluppo e sulla sperimentazione, indipendentemente dalla scelta.

Spark tramite Vertex AI

Sviluppa e metti in produzione Spark per la data science senza problemi con Vertex AI. Utilizza Spark da Vertex AI Workbench per lo sviluppo interattivo con sicurezza integrata e assistenza Gemini. Integra l'elaborazione Spark in Vertex AI Pipelines per MLOps robusti.

Supporto del formato tabella open source per la tua lakehouse

Le offerte Spark di Google Cloud offrono una solida compatibilità con formati open source come Apache Iceberg, Delta Lake e Hudi. Sfrutta BigLake Metastore o Dataproc Metastore per una gestione unificata dei metadati in tutti i formati, attivando un'architettura lakehouse aperta in cui puoi elaborare i dati con il motore Spark che preferisci.


Apache Spark è un marchio di Apache Software Foundation.

Fai il prossimo passo

Parlaci delle sfide che stai affrontando. Un esperto Google Cloud ti aiuterà a trovare la soluzione migliore.

Google Cloud