Dataproc è un servizio Spark e Hadoop gestito che ti consente di sfruttare gli strumenti per i dati open source per elaborazione batch, esecuzione di query, inserimento di flussi e machine learning. L'automazione di Dataproc ti aiuta a creare i cluster rapidamente, a gestirli con facilità e a risparmiare denaro disattivandoli quando non ti servono. Risparmiando tempo e denaro sull'amministrazione, puoi concentrarti sui tuoi progetti e sui tuoi dati.
Perché utilizzare Dataproc?
Rispetto ai tradizionali prodotti on-premise e ai servizi cloud concorrenti, Dataproc offre una serie di vantaggi unici per i cluster da tre a centinaia di nodi:
- Costo ridotto: il prezzo di Dataproc è di solo 1 centesimo per CPU virtuale nel cluster all'ora, oltre alle altre risorse della piattaforma Cloud che utilizzi. Oltre a questo prezzo basso, i cluster Dataproc possono includere istanze prerilasciabili con prezzi di calcolo inferiori, riducendo ulteriormente i costi. Invece di arrotondare l'utilizzo per eccesso all'ora più vicina, Dataproc ti addebita solo ciò che utilizzi effettivamente con la fatturazione secondo per secondo e un minimo minimo di un minuto. periodo di fatturazione.
- Molto veloce: senza utilizzare Dataproc, la creazione di cluster Spark e Hadoop on-premise o tramite provider IaaS può richiedere dai cinque ai 30 minuti. In confronto, i cluster Dataproc sono rapidi da avviare, scalare e arrestare, poiché ciascuna di queste operazioni impiega 90 secondi o meno in media. Ciò significa che potrai trascorrere meno tempo ad attendere i cluster e più tempo lavorando direttamente sui dati.
- Integrato: Dataproc è integrato con altri servizi Google Cloud Platform, come BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging e Cloud Monitoring, quindi non è solo un cluster Spark o Hadoop, ma una piattaforma di dati completa. Ad esempio, puoi utilizzare Dataproc per eseguire facilmente l'ETL di terabyte di dati di log non elaborati direttamente in BigQuery per la generazione di report aziendali.
- Gestito: utilizza i cluster Spark e Hadoop senza l'assistenza di un amministratore o di software speciale. Puoi facilmente dialogare con i cluster e i job Spark o Hadoop tramite la console Google Cloud, il Cloud SDK o l'API REST Dataproc. Quando hai finito con un cluster, puoi semplicemente disattivarlo, in modo da non spendere soldi per un cluster inattivo. Non dovrai preoccuparti di perdere dati, perché Dataproc è integrato con Cloud Storage, BigQuery e Cloud Bigtable.
- Semplice e familiare: non è necessario imparare a usare nuovi strumenti o API per utilizzare Dataproc, quindi è facile spostare i progetti esistenti in Dataproc senza doverli ridefinire. Spark, Hadoop, Pig e Hive vengono aggiornati di frequente, perciò puoi essere più produttivo più rapidamente.
Cosa è incluso in Dataproc?
Per un elenco delle versioni dei connettori open source (Hadoop, Spark, Hive e Pig) e della Google Cloud Platform supportate da Dataproc, consulta l'elenco delle versioni di Dataproc.
Inizia a utilizzare Dataproc
Per iniziare rapidamente a utilizzare Dataproc, consulta le guide rapide di Dataproc. Puoi accedere a Dataproc nei seguenti modi:
- Tramite l'API REST
- Utilizzo di Cloud SDK
- Utilizzo dell'interfaccia utente di Dataproc
- Tramite le librerie client di Cloud