Panoramica di Dataproc

Dataproc è un servizio Spark e Hadoop gestito che consente di sfruttare strumenti di dati open source per elaborazione batch, query, inserimento di flussi e machine learning. L'automazione Dataproc consente di creare cluster rapidamente, gestirli con facilità e risparmiare disattivando i cluster quando non ti servono. Grazie al minor tempo e denaro spesi per l'amministrazione, puoi concentrarti sui tuoi job e sui tuoi dati.

Perché usare Dataproc?

Rispetto ai prodotti on-premise tradizionali e ai servizi cloud della concorrenza, Dataproc presenta una serie di vantaggi esclusivi per i cluster da tre a centinaia di nodi:

  • Costo ridotto: Dataproc ha un prezzo di appena 1 centesimo di CPU virtuale nel cluster all'ora, in aggiunta alle altre risorse della piattaforma Cloud che utilizzi. Oltre a questo prezzo contenuto, i cluster Dataproc possono includere istanze prerilasciabili che hanno prezzi di calcolo più bassi, riducendo ulteriormente i costi. Invece di arrotondare l'utilizzo all'ora più vicina, Dataproc ti addebita solo l'utilizzo effettivo, con la fatturazione secondo per secondo e un periodo di fatturazione minimo di un minuto.
  • Superveloce: senza utilizzare Dataproc, la creazione di cluster Spark e Hadoop on-premise o tramite provider IaaS può richiedere dai 5 ai 30 minuti. In confronto, l'avvio, la scalabilità e l'arresto dei cluster Dataproc sono rapidi da avviare, scalare e arrestare, e ciascuna di queste operazioni richiede in media 90 secondi o meno. Ciò significa che potrai trascorrere meno tempo ad attendere i cluster e più tempo lavorando direttamente sui dati.
  • Integrato: Dataproc integra un'integrazione con altri servizi di Google Cloud Platform come BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging e Cloud Monitoring. In questo modo, avrai molto di più di un semplice cluster Spark o Hadoop: avrai una piattaforma dati completa. Ad esempio, puoi utilizzare Dataproc per ETL (ETL) di terabyte di dati di log non elaborati direttamente in BigQuery per il reporting aziendale.
  • Gestito: utilizza i cluster Spark e Hadoop senza l'assistenza di un amministratore o di un software speciale. Puoi interagire facilmente con i cluster e i job Spark o Hadoop tramite la console Google Cloud, Cloud SDK o l'API REST Dataproc. Quando hai finito di utilizzare un cluster, puoi semplicemente disattivarlo, in modo da non spendere denaro per un cluster inattivo. Non dovrai preoccuparti di perdere dati, perché Dataproc è integrato con Cloud Storage, BigQuery e Cloud Bigtable.
  • Semplice e familiare: per utilizzare Dataproc, non devi imparare a utilizzare nuovi strumenti o API. In questo modo, puoi spostare facilmente i progetti esistenti in Dataproc senza dover ridefinire lo sviluppo. Spark, Hadoop, Pig e Hive vengono aggiornati di frequente, il che ti consente di lavorare più velocemente.

Che cosa è incluso in Dataproc?

Per un elenco delle versioni open source (Hadoop, Spark, Hive e Pig) e della Google Cloud Platform supportate da Dataproc, consulta l'elenco delle versioni di Dataproc.

Introduzione a Dataproc

Per iniziare rapidamente a utilizzare Dataproc, consulta le guide rapide di Dataproc. Puoi accedere a Dataproc nei seguenti modi: