Panoramica di Dataproc

Dataproc è un servizio Spark e Hadoop gestito che consente di sfruttare di dati di origine per l'elaborazione batch, l'esecuzione di query, l'inserimento di flussi e il machine learning. L'automazione di Dataproc consente di creare cluster rapidamente, gestirli con facilità e risparmiare spegnendo i cluster quando non ti servono. Risparmio di tempo e denaro dell'amministrazione, puoi concentrarti sui tuoi lavori e sui tuoi dati.

Perché utilizzare Dataproc?

Rispetto ai prodotti tradizionali on-premise e ai cloud concorrenti Dataproc offre una serie di vantaggi esclusivi per i cluster da tre a centinaia di nodi:

  • Basso costo: Dataproc è al prezzo di solo 1 centesimo per CPU virtuale nel tuo cluster all'ora, rispetto alle altre risorse piattaforma Cloud che utilizzi. Oltre a questo a basso costo, i cluster Dataproc possono includere istanze prerilasciabili con prestazioni inferiori di computing, riducendo ulteriormente i costi. Invece di arrotondare fino all'ora più vicina, Dataproc addebita solo i costi a ciò che usi davvero con la fatturazione al secondo e un un periodo di fatturazione minimo di un minuto.
  • Superveloce: senza utilizzare Dataproc, può richiedere dai 5 ai 30 minuti per creare cluster Spark e Hadoop on-premise o tramite provider IaaS. In confronto, i cluster Dataproc avvio, scalabilità e arresto rapidi, con ciascuna di queste operazioni non superino i 90 secondi. Ciò significa che potrai trascorrere meno tempo ad attendere i cluster e più tempo lavorando direttamente sui dati.
  • Integrato: Dataproc è integrato con altri servizi Google Cloud Platform, come BigQuery Cloud Storage Cloud Bigtable, Cloud Logging e Cloud Monitoring, per offrirti molto di più un cluster Spark o Hadoop, hai una piattaforma dati completa. Per Ad esempio, puoi usare Dataproc per semplificare i terabyte di ETL non elaborati registrare i dati direttamente in BigQuery per i report aziendali.
  • Gestiti: utilizza i cluster Spark e Hadoop senza assistenza di un amministratore o di un software speciale. Puoi facilmente interagiscono con i cluster e i job Spark o Hadoop tramite Console Google Cloud, Cloud SDK o REST Dataproc tramite Google Cloud CLI o tramite l'API Compute Engine. Quando hai finito con un cluster, puoi semplicemente disattivarlo per di non spendere denaro su un cluster inattivo. Non dovrai preoccuparti di perdere dati, perché Dataproc è integrato con Cloud Storage, BigQuery e Cloud Bigtable.
  • Semplicità e familiarità: non devi imparare a usare nuovi strumenti oppure API per usare Dataproc, semplificando lo spostamento di progetti esistenti in Dataproc senza ripensare lo sviluppo. Spark, Hadoop, Pig e Hive vengono aggiornati di frequente, perciò puoi essere più produttivo più rapidamente.

Che cosa è incluso in Dataproc?

Per un elenco delle versioni dei connettori open source (Hadoop, Spark, Hive e Pig) e della piattaforma Google Cloud supportate da Dataproc, consulta l'elenco delle versioni di Dataproc.

Inizia a utilizzare Dataproc

Per iniziare rapidamente a utilizzare Dataproc, consulta le guide rapide di Dataproc. Puoi accedere a Dataproc nei seguenti modi: