Google Cloud Dataproc può offrire un risparmio sui costi compreso tra il 18% e il 60% rispetto ad altre alternative Hadoop e Spark basate su cloud. Scarica il report ESG.

Dataproc

Una piattaforma gestita per Spark, Hadoop e analisi open source

Esegui cluster di Apache Spark, Hadoop e oltre 30 framework open source completamente gestiti con facilità e controllo. Accelera Spark su Compute Engine con Lightning Engine e integralo con la lakehouse aperta di Google Cloud.

Apache Spark è un marchio di Apache Software Foundation.

Funzionalità

Supporto robusto per l'ecosistema Hadoop

Oltre a Spark, Dataproc fornisce servizi completamente gestiti per l'intero stack Apache Hadoop (MapReduce, HDFS, YARN), oltre a Flink, Trino, Hive e oltre 30 altri strumenti open source. Per supportare queste esigenze, Dataproc si integra con Dataproc Metastore, un servizio Hive Metastore completamente gestito, semplificando la gestione dei metadati per i componenti del data lake tradizionali. Modernizza i workload dei data lake tradizionali o crea nuove applicazioni con i motori che preferisci.

Spark gestito con Lightning Engine

Esegui workload Spark impegnativi con il controllo di un cluster Dataproc gestito, ora potenziato con una velocità delle query 4,3 volte* superiore grazie a Lightning Engine,** in anteprima. Ottieni significativi miglioramenti delle prestazioni per le operazioni di Spark SQL e DataFrame. Configura gli ambienti Spark in base alle tue esigenze, scegliendo versioni e librerie.

*Le query derivano dallo standard TPC-DS e dallo standard TPC-H e, in quanto tali, non sono comparabili ai risultati pubblicati dello standard TPC-DS e dello standard TPC-H, poiché queste esecuzioni non sono conformi a tutti i requisiti delle specifiche dello standard TPC-DS e dello standard TPC-H.

**Disponibile per il livello Premium di Dataproc su Compute Engine.

Configurazione e gestione flessibili dei cluster

Personalizza i cluster Dataproc con un'ampia gamma di tipi di macchina (incluse le GPU), VM preemptible, opzioni di disco, policy di scalabilità automatica, azioni di inizializzazione, container/immagini e componenti facoltativi. Utilizza funzionalità come i modelli di workflow per orchestrare job complessi e gestire i cluster tramite la console, gcloud, l'API o le librerie client. Ottieni una visibilità approfondita sulle prestazioni e sullo stato del cluster grazie all'integrazione con Cloud Monitoring, che fornisce metriche, dashboard e funzionalità di avviso complete.

Connettività lakehouse open

I cluster Dataproc si integrano in modo nativo con BigLake Metastore, consentendoti di elaborare dati archiviati in formati aperti come Apache Iceberg su Cloud Storage. Per le esigenze tradizionali di metadati basati su Hive, è disponibile un'integrazione perfetta con il servizio gestito Dataproc Metastore. Sfrutta il catalogo universale Dataplex per l'individuazione, la derivazione e la governance unificate in tutti gli asset della tua lakehouse. Estendi le tue applicazioni di dati collegando Dataproc a BigQuery, Vertex AI, Spanner, Pub/Sub e Data Fusion, creando soluzioni potenti ed end-to-end.

Proteggi l'elaborazione dei dati open source

Sfrutta la solida sicurezza di Google Cloud. Configura Kerberos, gestisci l'accesso con IAM, applica le policy di rete con i Controlli di servizio VPC e utilizza CMEK. Esegui l'integrazione con il catalogo universale Dataplex per la gestione centralizzata delle policy e abilita il controllo dell'accesso granulare con BigLake.

Supporta data engineer e data scientist

Utilizza strumenti e IDE familiari, come gli IDE Jupyter e VS Code in esecuzione sui tuoi laptop per connetterti ai cluster Dataproc. Integra Dataproc con Vertex AI Workbench per lo sviluppo interattivo di Spark sui cluster e crea pipeline AI/ML end-to-end con Vertex AI.

Come funziona

Operazioni cluster semplificate per analisi efficaci

Utilizzi comuni

Modernizzazione dei data lake e migrazione di Hadoop

Modernizza il tuo data lake

Esegui facilmente la migrazione dei workload Hadoop e Spark on-premise al cloud. Utilizza Dataproc per eseguire job MapReduce, Hive, Pig e Spark su dati in Cloud Storage, integrati con Dataproc Metastore e regolato dal catalogo universale Dataplex.

Tutorial, guide rapide e lab

Modernizza il tuo data lake

Esegui facilmente la migrazione dei workload Hadoop e Spark on-premise al cloud. Utilizza Dataproc per eseguire job MapReduce, Hive, Pig e Spark su dati in Cloud Storage, integrati con Dataproc Metastore e regolato dal catalogo universale Dataplex.

ETL batch su larga scala con Spark e Hadoop

elaborazione batch aziendale

Elabora e trasforma set di dati di grandi dimensioni in modo efficiente utilizzando Spark, accelerato da Lightning Engine con Dataproc su Compute Engine, o MapReduce su cluster Dataproc personalizzabili. Ottimizza pipeline ETL complesse per prestazioni e costi in un ambiente controllato.

Tutorial, guide rapide e lab

elaborazione batch aziendale

Elabora e trasforma set di dati di grandi dimensioni in modo efficiente utilizzando Spark, accelerato da Lightning Engine con Dataproc su Compute Engine, o MapReduce su cluster Dataproc personalizzabili. Ottimizza pipeline ETL complesse per prestazioni e costi in un ambiente controllato.

Ambienti di data science e ML configurabili

Data science personalizzata su larga scala

Avvia cluster Dataproc appositamente creati con versioni specifiche di Spark, Jupyter e delle librerie ML richieste per l'addestramento dei modelli collaborativo su larga scala e l'analisi avanzata. Integrazione con Vertex AI per MLOps.

Ricette AI/ML per Dataproc

Tutorial, guide rapide e lab

Data science personalizzata su larga scala

Avvia cluster Dataproc appositamente creati con versioni specifiche di Spark, Jupyter e delle librerie ML richieste per l'addestramento dei modelli collaborativo su larga scala e l'analisi avanzata. Integrazione con Vertex AI per MLOps.

Ricette AI/ML per Dataproc

Esecuzione di vari motori di analisi open source

OSS flessibile

Esegui il deployment di cluster dedicati con Trino per SQL interattivo, Flink per l'elaborazione avanzata di flussi o altri motori open source specializzati insieme a Spark e Hadoop, il tutto gestito da Dataproc.

Dataproc incontra TensorFlow su YARN

Tutorial, guide rapide e lab

OSS flessibile

Esegui il deployment di cluster dedicati con Trino per SQL interattivo, Flink per l'elaborazione avanzata di flussi o altri motori open source specializzati insieme a Spark e Hadoop, il tutto gestito da Dataproc.

Dataproc incontra TensorFlow su YARN

Genera una soluzione

Che tipo di problema stai cercando di risolvere?

What you'll get:

Guida passo passo

Architettura di riferimento

Soluzioni predefinite disponibili

Questo servizio è stato creato con Vertex AI. Devi avere almeno 18 anni per utilizzarlo. Non inserire informazioni sensibili, riservate o personali.

Prezzi

Prezzi di Dataproc per i cluster gestiti	Dataproc offre prezzi con pagamento a consumo. Ottimizza i costi con la scalabilità automatica e le VM preemptible. Il livello Premium di Compute Engine consente di accelerare Spark con Lightning Engine.
Componenti chiave:	Istanze Compute Engine (vCPU, memoria) Commissione per il servizio Dataproc (per vCPU-ora) Dischi permanenti
Esempio:	Un cluster con 6 nodi (1 principale + 5 worker) di 4 CPU ciascuno in esecuzione per 2 ore costerebbe 0,48 $. Costo di Dataproc = numero di vCPU * ore * prezzo Dataproc = 24 * 2 * 0,01 $ = 0,48 $

Scopri i prezzi dettagliati di Dataproc

Prezzi di Dataproc per i cluster gestiti

Dataproc offre prezzi con pagamento a consumo. Ottimizza i costi con la scalabilità automatica e le VM preemptible. Il livello Premium di Compute Engine consente di accelerare Spark con Lightning Engine.

Componenti chiave:

Istanze Compute Engine (vCPU, memoria)
Commissione per il servizio Dataproc (per vCPU-ora)
Dischi permanenti

Esempio:

Un cluster con 6 nodi (1 principale + 5 worker) di 4 CPU ciascuno in esecuzione per 2 ore costerebbe 0,48 $. Costo di Dataproc = numero di vCPU * ore * prezzo Dataproc = 24 * 2 * 0,01 $ = 0,48 $

Scopri i prezzi dettagliati di Dataproc

Calcolatore prezzi

Stima i costi mensili di Dataproc, inclusi i prezzi e le tariffe specifici per regione.

Preventivo personalizzato

Contatta il nostro team di vendita per ricevere un preventivo personalizzato per la tua organizzazione.

Dataproc

Una piattaforma gestita per Spark, Hadoop e analisi open source

Caratteristiche principali del prodotto:

Supporto robusto per l'ecosistema Hadoop

Spark gestito con Lightning Engine

Configurazione e gestione flessibili dei cluster

Connettività lakehouse open

Proteggi l'elaborazione dei dati open source

Supporta data engineer e data scientist

Operazioni cluster semplificate per analisi efficaci

Modernizzazione dei data lake e migrazione di Hadoop

Modernizza il tuo data lake

Tutorial, guide rapide e lab

Modernizza il tuo data lake

ETL batch su larga scala con Spark e Hadoop

elaborazione batch aziendale

Tutorial, guide rapide e lab

elaborazione batch aziendale

Ambienti di data science e ML configurabili

Data science personalizzata su larga scala

Tutorial, guide rapide e lab

Data science personalizzata su larga scala

Esecuzione di vari motori di analisi open source

OSS flessibile

Tutorial, guide rapide e lab

OSS flessibile

Calcolatore prezzi

Preventivo personalizzato

Inizia ora

300 $ di crediti gratuiti per i nuovi clienti

Hai un progetto di grandi dimensioni?

Crea un cluster Dataproc utilizzando la console Google Cloud

Utilizzo del connettore Cloud Storage con Apache Spark

L'Architecture Center offre risorse di contenuti su un'ampia varietà di argomenti e scenari di migrazione per aiutarti