Dataproc è un servizio Spark e Hadoop gestito che consente di sfruttare di dati di origine per l'elaborazione batch, l'esecuzione di query, l'inserimento di flussi e il machine learning. L'automazione di Dataproc ti aiuta a creare i cluster rapidamente, a gestirli con facilità e a risparmiare denaro disattivandoli quando non ti servono. Risparmio di tempo e denaro dell'amministrazione, puoi concentrarti sui tuoi lavori e sui tuoi dati.
Perché utilizzare Dataproc?
Rispetto ai prodotti tradizionali on-premise e ai cloud concorrenti Dataproc offre una serie di vantaggi esclusivi per i cluster da tre a centinaia di nodi:
- Costo ridotto: il prezzo di Dataproc è di solo 1 centesimo per CPU virtuale nel cluster all'ora, oltre alle altre risorse della piattaforma Cloud che utilizzi. Oltre a questo a basso costo, i cluster Dataproc possono includere istanze prerilasciabili con prestazioni inferiori di computing, riducendo ulteriormente i costi. Invece di arrotondare l'utilizzo per eccesso all'ora più vicina, Dataproc ti addebita solo ciò che utilizzi effettivamente con la fatturazione secondo per secondo e un minimo periodo di fatturazione di un minuto.
- Superveloce: senza utilizzare Dataproc, può richiedere dai 5 ai 30 minuti per creare cluster Spark e Hadoop on-premise o tramite provider IaaS. In confronto, i cluster Dataproc sono rapidi da avviare, scalare e arrestare, poiché ciascuna di queste operazioni impiega 90 secondi o meno in media. Ciò significa che potrai dedicare meno tempo in attesa di cluster e più tempo pratico per lavorare con i dati.
- Integrato: Dataproc è integrato con altri servizi della piattaforma Google Cloud, come BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging e Cloud Monitoring, quindi non è solo un cluster Spark o Hadoop, ma una piattaforma di dati completa. Per Ad esempio, puoi usare Dataproc per semplificare i terabyte di ETL non elaborati registrare i dati direttamente in BigQuery per i report aziendali.
- Gestito: utilizza i cluster Spark e Hadoop senza l'assistenza di un amministratore o di software speciale. Puoi facilmente dialogare con i cluster e i job Spark o Hadoop tramite la console Google Cloud, il Cloud SDK o l'API REST Dataproc. Quando hai finito con un cluster, puoi semplicemente disattivarlo, in modo da non spendere soldi per un cluster inattivo. Non dovrai preoccuparti di di perdere dati, dato che Dataproc è integrato con Cloud Storage, BigQuery e Cloud Bigtable.
- Semplicità e familiarità: non devi imparare a usare nuovi strumenti oppure API per usare Dataproc, semplificando lo spostamento di progetti esistenti in Dataproc senza ripensare lo sviluppo. Spark, Hadoop, Pig e Hive vengono aggiornati di frequente. In questo modo, puoi essere più produttivo.
Cosa è incluso in Dataproc?
Per un elenco delle versioni dei connettori open source (Hadoop, Spark, Hive e Pig) e Google Cloud Platform supportate da Dataproc, consulta Elenco delle versioni di Dataproc.
Introduzione a Dataproc
Per iniziare rapidamente a utilizzare Dataproc, consulta le guide rapide di Dataproc. Puoi accedere a Dataproc nei seguenti modi:
- Tramite l'API REST
- Utilizzo di Cloud SDK
- Utilizzo dell'interfaccia utente di Dataproc
- Tramite le librerie client di Cloud