Panoramica di Dataproc

Dataproc è un servizio Spark e Hadoop gestito che consente di sfruttare strumenti di dati open source per l'elaborazione batch, l'esecuzione di query, l'inserimento di flussi e il machine learning. L'automazione di Dataproc consente di creare i cluster rapidamente, gestirli con facilità e risparmiare disattivando i cluster quando non ti servono. Risparmiando tempo e denaro nell'amministrazione, puoi concentrarti sui tuoi job e sui tuoi dati.

Perché utilizzare Dataproc?

Rispetto ai tradizionali prodotti on-premise e ai servizi cloud concorrenti, Dataproc offre una serie di vantaggi esclusivi per i cluster da 3 a centinaia di nodi:

  • Basso costo: Dataproc ha un prezzo di solo 1 centesimo per CPU virtuale all'ora nel cluster, oltre alle altre risorse piattaforma Cloud che utilizzi. Oltre al prezzo ridotto, i cluster Dataproc possono includere istanze prerilasciabili con prezzi di calcolo inferiori, riducendo ulteriormente i costi. Anziché arrotondare l'utilizzo all'ora più vicina, Dataproc ti addebita solo ciò che utilizzi davvero, con fatturazione al secondo al secondo e un periodo di fatturazione minimo di un minuto.
  • Molto veloce: senza utilizzare Dataproc, la creazione di cluster Spark e Hadoop on-premise o tramite provider IaaS può richiedere da cinque a 30 minuti. In confronto, l'avvio, la scalabilità e l'arresto dei cluster Dataproc sono rapidi e ciascuna di queste operazioni richiede in media 90 secondi o meno. Ciò significa che potrai trascorrere meno tempo ad attendere i cluster e più tempo pratico a lavorare con i dati.
  • Integrato: Dataproc è integrato con altri servizi Google Cloud Platform come BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging e Cloud Monitoring. In questo modo, non solo hai un cluster Spark o Hadoop; hai a disposizione una piattaforma dati completa. Ad esempio, puoi utilizzare Dataproc per eseguire agevolmente l'ETL di terabyte di dati di log non elaborati direttamente in BigQuery per i report aziendali.
  • Gestiti: utilizza i cluster Spark e Hadoop senza l'assistenza di un amministratore o di un software speciale. Puoi interagire facilmente con i cluster e i job Spark o Hadoop tramite la console Google Cloud, Cloud SDK o l'API REST Dataproc. Quando hai finito con un cluster, puoi semplicemente disattivarlo, per non spendere denaro per un cluster inattivo. Non dovrai preoccuparti di perdere dati, perché Dataproc è integrato con Cloud Storage, BigQuery e Cloud Bigtable.
  • Semplici e familiari: non devi imparare nuovi strumenti o API per utilizzare Dataproc, in questo modo è facile spostare i progetti esistenti in Dataproc senza dover ridefinire lo sviluppo. Spark, Hadoop, Pig e Hive vengono aggiornati di frequente per consentirti di essere più produttivo.

Che cosa è incluso in Dataproc?

Per un elenco delle versioni dei connettori open source (Hadoop, Spark, Hive e Pig) e Google Cloud Platform supportate da Dataproc, consulta l'elenco delle versioni di Dataproc.

Introduzione a Dataproc

Per iniziare rapidamente a utilizzare Dataproc, consulta le guide rapide di Dataproc. Puoi accedere a Dataproc nei seguenti modi: