Cloud Dataproc

Un modo più veloce, facile ed economico per eseguire Apache Spark e Apache Hadoop

Fai una prova gratuita

Ambienti Apache Hadoop e Apache Spark cloud-native

Cloud Dataproc è un servizio cloud completamente gestito, veloce e facile da utilizzare per eseguire i cluster Apache Spark e Apache Hadoop in modo più semplice ed economico. Le operazioni che prima richiedevano ore o giorni adesso vengono eseguite nel giro di pochi secondi o minuti. Inoltre, paghi solo per le risorse che utilizzi (con fatturazione al secondo). Cloud Dataproc si integra senza problemi con altri servizi Google Cloud Platform (GCP), offrendo una piattaforma completa e avanzata per l'elaborazione dati, l'analisi e il machine learning.

Hadoop e Spark gestito

Elaborazione dati veloce e scalabile

Crea rapidamente i cluster di Cloud Dataproc e ridimensionali in qualsiasi momento, da tre a centinaia di nodi, così non dovrai preoccuparti se le pipeline dei dati superano le dimensioni dei cluster. Ogni azione del cluster richiede in media meno di 90 secondi, quindi hai più tempo per concentrarti sulle informazioni strategiche, eliminando gli sprechi di tempo associati alla gestione dell'infrastruttura.

Elaborazione dati veloce e scalabile

Prezzi contenuti

Adottando i principi tariffari di Google Cloud Platform, Cloud Dataproc ha un costo contenuto e una struttura dei prezzi di semplice comprensione, basata sull'utilizzo effettivo, misurato al secondo. I cluster di Cloud Dataproc possono inoltre includere istanze prerilasciabili a basso costo, offrendo così cluster avanzati a un costo totale ancora più contenuto.

Prezzi contenuti

Ecosistema open source

L'ecosistema di Spark e Hadoop fornisce strumenti, librerie e documenti che possono essere utilizzati con Cloud Dataproc. Grazie alle versioni native e frequentemente aggiornate di Spark, Hadoop, Pig e Hive, puoi iniziare senza dover imparare l'uso di nuovi strumenti o API e trasferire progetti esistenti o pipeline ETL senza dover ridefinire lo sviluppo.

Ecosistema open source

Funzionalità di Cloud Dataproc

Google Cloud Dataproc è un servizio Apache Spark e Apache Hadoop gestito veloce, facile da usare e a basso costo.

Gestione automatica dei cluster
Il deployment, il logging e il monitoraggio gestiti ti consentono di concentrarti sui dati piuttosto che sui cluster. I tuoi cluster saranno stabili, scalabili e veloci.
Cluster ridimensionabili
I cluster possono essere creati e scalati rapidamente con un'ampia gamma di tipi di macchine virtuali, dimensioni dei dischi, numeri di nodi e opzioni di networking.
Ambiente integrato
Integrazione perfetta con Cloud Storage, BigQuery, Bigtable, Stackdriver Logging e Stackdriver Monitoring, offrendo una piattaforma dati completa e robusta.
Controllo delle versioni
Il controllo delle versioni delle immagini consente di passare da una versione all'altra di Apache Spark, Apache Hadoop e altri strumenti.
Disponibilità elevata
Esegui cluster con più nodi master e imposta i job in modo che si riavviino in caso di errore per garantire elevata disponibilità di cluster e job.
Strumenti per sviluppatori
Sono disponibili diversi strumenti per gestire un cluster, tra cui un'UI web facile da utilizzare, Google Cloud SDK, API RESTful e accesso SSH.
Azioni di inizializzazione
Esegui azioni di inizializzazione per installare o personalizzare le impostazioni e le librerie necessarie quando viene creato il cluster.
Configurazione automatica o manuale
Cloud Dataproc configura automaticamente hardware e software sui cluster, consentendo al tempo stesso il controllo manuale.
Macchine virtuali flessibili
I cluster possono utilizzare tipi di macchine personalizzate e macchine virtuali prerilasciabili garantendo dimensioni che si adattano perfettamente alle tue esigenze.

Cloud Dataflow e Cloud Dataproc: quale utilizzare?

Cloud Dataproc e Cloud Dataflow possono essere entrambi utilizzati per l'elaborazione dei dati e le funzionalità di elaborazione in modalità flusso e batch dei due prodotti sono sovrapponibili. Come scegliere la soluzione ideale per il tuo ambiente?
Dataproc e Dataflow

Cloud Dataproc

Cloud Dataproc è ideale per gli ambienti che dipendono da componenti specifici dell'ecosistema di big data di Apache:

  • Strumenti/pacchetti
  • Pipeline
  • Competenze delle risorse esistenti

Cloud Dataflow

Cloud Dataflow è in genere la soluzione più adatta per gli ambienti greenfield:

  • Costi operativi inferiori
  • Approccio unificato allo sviluppo di pipeline in modalità flusso o batch
  • Utilizza Apache Beam
  • Supporta la portabilità delle pipeline tra Cloud Dataflow, Apache Spark e Apache Flink come runtime

Carichi di lavoro consigliati

CARICHI DI LAVORO CLOUD DATAPROC CLOUD DATAFLOW
Elaborazione dei flussi (ETL)
Elaborazione batch (ETL)
Elaborazione iterativa e notebook
Machine learning con Spark ML
Pre-elaborazione per machine learning (con Cloud ML Engine)

Prezzi di Cloud Dataproc

Cloud Dataproc comporta una piccola tariffa incrementale per CPU virtuale nelle istanze di Compute Engine utilizzate nel cluster1.

Iowa (us-central1) Oregon (us-west1) Virginia del Nord (us-east4) Carolina del Sud (us-east1) Montréal (northamerica-northeast1) San Paolo (southamerica-east1) Belgio (europe-west1) Londra (europe-west2) Paesi Bassi (europe-west4) Francoforte (europe-west3) Sydney (australia-southeast1) Mumbai (asia-south1) Hong Kong (asia-east2) Taiwan (asia-east1) Tokyo (asia-northeast1)
Tipo di macchina Prezzo
Macchine standard
1-64 CPU virtuali
Macchine con memoria elevata
2-64 CPU virtuali
Macchine con CPU elevata
2-64 CPU virtuali
Macchine personalizzate
In base all'utilizzo di vCPU e memoria
Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Cloud Platform.

1 Google Cloud Dataproc comporta una piccola tariffa incrementale per CPU virtuale nelle istanze di Compute Engine utilizzate nel cluster quando il cluster è operativo. I costi di ulteriori risorse utilizzate da Cloud Dataproc, ad esempio rete di Compute Engine, BigQuery, Cloud Bigtable e altre, vengono addebitati in base al consumo. Per informazioni più dettagliate sui prezzi, consulta la guida ai prezzi.

Invia feedback per...