Cloud Dataproc

Un modo più veloce, facile ed economico per eseguire Apache Spark e Apache Hadoop

Fai una prova gratuita

Ambienti Apache Hadoop e Apache Spark cloud-native

Cloud Dataproc è un servizio cloud veloce, facile da utilizzare e completamente gestito per eseguire i cluster Apache Spark e Apache Hadoop in maniera più semplice ed economica. Le operazioni che prima richiedevano ore o giorni adesso vengono eseguite nel giro di pochi secondi o minuti. Inoltre, paghi solo per le risorse che utilizzi (con fatturazione al secondo). Cloud Dataproc si integra senza problemi con altri servizi Google Cloud Platform (GCP), offrendo una piattaforma completa e avanzata per l'elaborazione dati, l'analisi e il machine learning.

Hadoop e Spark gestito

Elaborazione dati veloce e scalabile

Crea rapidamente i cluster di Cloud Dataproc e ridimensionali in qualsiasi momento, da tre a centinaia di nodi, così non dovrai preoccuparti se le pipeline dei dati superano le dimensioni dei cluster. Ogni azione del cluster richiede in media meno di 90 secondi, quindi hai più tempo per concentrarti sulle informazioni strategiche, eliminando gli sprechi di tempo associati alla gestione dell'infrastruttura.

Elaborazione dati veloce e scalabile

Prezzi contenuti

Adottando i principi tariffari di Google Cloud Platform, Cloud Dataproc ha un costo contenuto e una struttura dei prezzi di semplice comprensione, basata sull'utilizzo effettivo, misurato al secondo. I cluster di Cloud Dataproc possono inoltre includere istanze prerilasciabili a basso costo, offrendo così cluster avanzati a un costo totale ancora più contenuto.

Prezzi contenuti

Ecosistema open source

L'ecosistema di Spark e Hadoop fornisce strumenti, librerie e documenti che possono essere utilizzati con Cloud Dataproc. Grazie alle versioni native e frequentemente aggiornate di Spark, Hadoop, Pig e Hive, puoi iniziare senza dover imparare nuovi strumenti o API e trasferire progetti esistenti o pipeline ETL senza dover ridefinire lo sviluppo.

Ecosistema open source

Funzionalità di Cloud Dataproc

Google Cloud Dataproc è un servizio Apache Spark e Apache Hadoop gestito veloce, facile da usare e a basso costo.

Gestione automatica dei cluster
L'implementazione, la registrazione e il monitoraggio gestiti consentono di concentrarsi sui dati, non sui cluster. I tuoi cluster saranno stabili, scalabili e veloci.
Cluster ridimensionabili
È possibile creare e ridimensionare rapidamente i cluster con un'ampia gamma di tipi di macchine virtuali, dimensioni dei dischi, numeri di nodi e opzioni di networking.
Capacità di integrazione
Integrazione incorporata con Cloud Storage, BigQuery, Bigtable, Stackdriver Logging e Stackdriver Monitoring per una piattaforma dati completa e solida.
Controllo versioni
Il controllo versioni delle immagini consente di passare da una versione all'altra di Apache Spark, Apache Hadoop e altri strumenti.
Disponibilità elevata
Esegui cluster con più nodi master e imposta job di riavvio in caso di errore in modo che cluster e job garantiscano sempre elevata disponibilità.
Strumenti per sviluppatori
Diversi modi per gestire un cluster, tra cui un'interfaccia utente web di facile utilizzo, Google Cloud SDK, API RESTful e accesso SSH.
Azioni di inizializzazione
Esegui azioni di inizializzazione per installare o personalizzare le impostazioni e le librerie necessarie quando viene creato il cluster.
Configurazione automatica o manuale
Cloud Dataproc configura automaticamente hardware e software sui cluster, consentendo al tempo stesso il controllo manuale.
Macchine virtuali flessibili
I cluster possono usare tipi di macchine personalizzate e macchine virtuali prerilasciabili le cui dimensioni si adattano quindi perfettamente alle tue esigenze.

Confronto tra Cloud Dataflow e Cloud Dataproc: quale utilizzare?

Cloud Dataproc e Cloud Dataflow possono essere entrambi utilizzati per l'elaborazione dei dati e le funzionalità di elaborazione in flussi e in batch dei due prodotti sono sovrapponibili. Come scegliere la soluzione ideale per il tuo ambiente?
Confronto tra Dataproc e Dataflow

Cloud Dataproc

Cloud Dataproc è ideale per gli ambienti che dipendono da componenti specifici dell'ecosistema di big data di Apache:

  • check Strumenti/pacchetti
  • check Pipeline
  • check Competenze delle risorse esistenti

Cloud Dataflow

Cloud Dataflow è in genere la soluzione più adatta per gli ambienti greenfield:

  • check Costi operativi inferiori
  • check Approccio unificato allo sviluppo di pipeline in modalità flusso o batch
  • check Utilizza Apache Beam
  • check Supporta la portabilità delle pipeline tra Cloud Dataflow, Apache Spark e Apache Flink come runtime

Carichi di lavoro consigliati

CARICHI DI LAVORO CLOUD DATAPROC CLOUD DATAFLOW
Elaborazione dei flussi (ETL) check
Elaborazione batch (ETL) check check
Elaborazione iterativa e notebook check
Machine learning con Spark ML check
Pre-elaborazione per machine learning check (con Cloud ML Engine)

Prezzi di Cloud Dataproc

Cloud Dataproc comporta una piccola tariffa incrementale per CPU virtuale nelle istanze di Compute Engine utilizzate nel cluster1.

Iowa Oregon Virginia del Nord Carolina del Sud Montréal San Paolo Belgio Londra Paesi Bassi Francoforte Sydney Mumbai Taiwan Tokyo
Tipo di macchina Prezzo
Macchine standard
1-64 CPU virtuali
Macchine con memoria elevata
2-64 CPU virtuali
Macchine con CPU elevata
2-64 CPU virtuali
Macchine personalizzate
In base all'utilizzo di vCPU e memoria
Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.

1 Cloud Dataproc comporta una piccola tariffa incrementale per CPU virtuale nelle istanze di Compute Engine utilizzate nel cluster quando il cluster è operativo. I costi di ulteriori risorse utilizzate da Cloud Dataproc, ad esempio rete di Compute Engine, BigQuery, Cloud Bigtable e altre, vengono addebitati in base al consumo. Per informazioni più dettagliate sui prezzi, consulta la guida ai prezzi.