Dataproc

Dataproc rende più rapida, semplice e sicura l'elaborazione dei dati open source e delle analisi sul cloud.

I nuovi clienti ricevono $ 300 di crediti gratuiti da spendere su Google Cloud nei primi 90 giorni. Tutti i clienti usufruiscono di un utilizzo gratuito (fino ai limiti mensili) di prodotti specifici, tra cui BigQuery e altro ancora.

Prova Dataproc gratuitamente
  • action/check_circle_24px Creato con Sketch.

    Avvia un cluster a scalabilità automatica in 90 secondi su macchine personalizzate

  • action/check_circle_24px Creato con Sketch.

    Crea cluster completamente gestiti di Apache Spark, Apache Hadoop, Presto e altro software open source (OSS)

  • action/check_circle_24px Creato con Sketch.

    Paga solo per le risorse che utilizzi e abbassa il costo totale di proprietà del software open source

  • action/check_circle_24px Creato con Sketch.

    Integra crittografia e sicurezza unificata in ogni cluster

  • action/check_circle_24px Creato con Sketch.

    Accelera la data science con cluster creati appositamente

Vantaggi

Creazione più rapida di cluster OSS personalizzati su macchine personalizzate

Che tu abbia bisogno di memoria extra per Presto o di GPU per il machine learning di Apache Spark, Dataproc permette di velocizzare l'elaborazione di dati e l'analisi avviando in 90 secondi un cluster creato appositamente.

Gestione dei cluster semplice e conveniente

Grazie a scalabilità automatica, eliminazione dei cluster inattivi, prezzi al secondo e molto altro, Dataproc consente di ridurre il costo totale di proprietà del software open source e di concentrare tempo e risorse altrove. 

Sicurezza integrata per impostazione predefinita

La crittografia per impostazione predefinita assicura che non ci siano dati non protetti. Con JobsAPI e il gateway dei componenti, puoi definire autorizzazioni per i cluster Cloud IAM, senza dover configurare nodi di rete o di gateway. 

Funzionalità principali

Funzionalità principali

Gestione automatica dei cluster

Il deployment, il logging e il monitoraggio gestiti ti consentono di concentrarti sui dati piuttosto che sui cluster. I cluster Dataproc sono stabili, scalabili e veloci.

Containerizzazione dei job OSS

Quando crei i job OSS (ad esempio, Apache Spark) su Dataproc, puoi containerizzarli rapidamente con Kubernetes ed eseguirne il deployment ovunque si trovi un cluster GKE. 

Sicurezza aziendale

Quando crei un cluster Dataproc, puoi abilitare la modalità protetta di Hadoop tramite Kerberos per mezzo dell'aggiunta di una configurazione di sicurezza. Inoltre, alcune delle funzionalità di sicurezza specifiche di Google Cloud utilizzate più comunemente con Dataproc sono la crittografia predefinita dei dati inattivi, il servizio OS Login, i Controlli di servizio VPC e le chiavi di crittografia gestite dal cliente (CMEK).

Visualizza tutte le funzionalità

Clienti

Novità

Novità

Iscriviti alle newsletter di Google Cloud per ricevere aggiornamenti sui prodotti, informazioni sugli eventi, offerte speciali e molto altro.

Documentazione

Documentazione

API e librerie
Azioni di inizializzazione di Dataproc

Aggiungi altri progetti software open source ai tuoi cluster Dataproc con azioni di inizializzazione integrate.

API e librerie
Connettori open source

Librerie e strumenti per l'interoperabilità di Apache Hadoop.

Casi d'uso

Casi d'uso

Caso d'uso
Spostamento dei cluster Hadoop e Spark nel cloud

Le aziende eseguono la migrazione dei loro cluster Apache Hadoop e Spark on-premise esistenti su Dataproc per gestire i costi e liberare la potenza della scalabilità elastica. Con Dataproc, le aziende dispongono di un cluster creato appositamente e completamente gestito che può scalare automaticamente per supportare qualsiasi job di elaborazione di dati o analisi. 

Caso d'uso
Data science su Dataproc

Crea il tuo ambiente di data science ideale avviando un cluster Dataproc creato appositamente. Integra i software open source come i blocchi note Apache Spark, NVIDIA RAPIDS e Jupyter con i servizi AI e le GPU di Google Cloud per accelerare lo sviluppo del machine learning e dell'AI. 

Tutte le funzionalità

Tutte le funzionalità

Cluster ridimensionabili Crea e scala i cluster rapidamente con un'ampia gamma di tipi di macchine virtuali, dimensioni dei dischi, opzioni di networking e con il numero di nodi che vuoi tu.
Scalabilità automatica dei cluster La scalabilità automatica di Dataproc offre un meccanismo per automatizzare la gestione delle risorse cluster e permette di aggiungere e sottrarre automaticamente i worker (nodi) del cluster.
Integrazione con Cloud Integrazione perfetta con Cloud Storage, BigQuery, Cloud Bigtable, Cloud Logging, Cloud Monitoring e AI Hub, per offrirti una piattaforma dati più completa e robusta.
Controllo delle versioni Il controllo delle versioni delle immagini consente di passare da una versione all'altra di Apache Spark, Apache Hadoop e altri strumenti.
Disponibilità elevata Esegui i cluster nella modalità ad alta disponibilità con più nodi master e imposta i job in modo che si riavviino in caso di errore per garantire l'elevata disponibilità di cluster e job.
Eliminazione pianificata dei cluster Per evitare di farsi carico del costo di un cluster non attivo, è possibile utilizzare l'eliminazione pianificata di Dataproc, che mette a disposizione opzioni per eliminare un cluster dopo un determinato periodo di inattività, in una determinata data futura oppure dopo un periodo di tempo specificato.
Configurazione automatica o manuale Dataproc configura automaticamente l'hardware e il software, ma consente anche il controllo manuale.
Strumenti per sviluppatori Sono disponibili diversi strumenti per gestire un cluster, tra cui una UI web facile da utilizzare, Cloud SDK, API RESTful e accesso SSH.
Azioni di inizializzazione Esegui azioni di inizializzazione per installare o personalizzare le impostazioni e le librerie necessarie quando viene creato il cluster.
Componenti facoltativi Utilizza i componenti facoltativi per installare e configurare componenti aggiuntivi sul cluster. I componenti facoltativi vengono integrati con i componenti di Dataproc e offrono ambienti completamente configurati per Zeppelin, Druid, Presto e altri componenti software open source correlati all'ecosistema Apache Hadoop e Apache Spark.
Immagini personalizzate Puoi eseguire il provisioning dei cluster Dataproc con un'immagine personalizzata che include i pacchetti del sistema operativo Linux preinstallati.
Macchine virtuali flessibili I cluster possono utilizzare tipi di macchine personalizzate e macchine virtuali prerilasciabili per ottenere la dimensione perfetta per le proprie esigenze.
Gateway dei componenti e accesso ai blocchi note Il gateway dei componenti di Dataproc consente l'accesso sicuro con un solo clic alle interfacce web dei componenti predefiniti e facoltativi di Dataproc in esecuzione sul cluster.
Modelli di flusso di lavoro I modelli di flusso di lavoro di Dataproc offrono un meccanismo flessibile e facile da usare per la gestione e l'esecuzione dei flussi di lavoro. Un modello di flusso di lavoro è una configurazione del flusso di lavoro riutilizzabile che definisce un grafico di job con informazioni sul punto di esecuzione di questi job.

Prezzi

Prezzi

I prezzi di Dataproc si basano sul numero di vCPU e sul loro tempo di esecuzione. Mentre i prezzi mostrano la tariffa oraria, ti vengono addebitati i costi al secondo, pertanto paghi solo per quello che utilizzi. Consulta la pagina dei prezzi per ulteriori dettagli.

Partner

Partner

Dataproc si integra con partner fondamentali per estendere i tuoi investimenti e livelli di competenza esistenti.