Dataproc è un servizio Spark e Hadoop gestito che consente di sfruttare di dati di origine per l'elaborazione batch, l'esecuzione di query, l'inserimento di flussi e il machine learning. L'automazione di Dataproc consente di creare cluster rapidamente, gestirli con facilità e risparmiare spegnendo i cluster quando non ti servono. Risparmio di tempo e denaro dell'amministrazione, puoi concentrarti sui tuoi lavori e sui tuoi dati.
Perché utilizzare Dataproc?
Rispetto ai prodotti tradizionali on-premise e ai cloud concorrenti Dataproc offre una serie di vantaggi esclusivi per i cluster da tre a centinaia di nodi:
- Basso costo: Dataproc è al prezzo di solo 1 centesimo per CPU virtuale nel tuo cluster all'ora, rispetto alle altre risorse piattaforma Cloud che utilizzi. Oltre a questo a basso costo, i cluster Dataproc possono includere istanze prerilasciabili con prestazioni inferiori di computing, riducendo ulteriormente i costi. Invece di arrotondare fino all'ora più vicina, Dataproc addebita solo i costi a ciò che usi davvero con la fatturazione al secondo e un un periodo di fatturazione minimo di un minuto.
- Superveloce: senza utilizzare Dataproc, può richiedere dai 5 ai 30 minuti per creare cluster Spark e Hadoop on-premise o tramite provider IaaS. In confronto, i cluster Dataproc avvio, scalabilità e arresto rapidi, con ciascuna di queste operazioni non superino i 90 secondi. Ciò significa che potrai trascorrere meno tempo ad attendere i cluster e più tempo lavorando direttamente sui dati.
- Integrato: Dataproc è integrato con altri servizi Google Cloud Platform, come BigQuery Cloud Storage Cloud Bigtable, Cloud Logging e Cloud Monitoring, per offrirti molto di più un cluster Spark o Hadoop, hai una piattaforma dati completa. Per Ad esempio, puoi usare Dataproc per semplificare i terabyte di ETL non elaborati registrare i dati direttamente in BigQuery per i report aziendali.
- Gestiti: utilizza i cluster Spark e Hadoop senza assistenza di un amministratore o di un software speciale. Puoi facilmente interagiscono con i cluster e i job Spark o Hadoop tramite Console Google Cloud, Cloud SDK o REST Dataproc tramite Google Cloud CLI o tramite l'API Compute Engine. Quando hai finito con un cluster, puoi semplicemente disattivarlo per di non spendere denaro su un cluster inattivo. Non dovrai preoccuparti di perdere dati, perché Dataproc è integrato con Cloud Storage, BigQuery e Cloud Bigtable.
- Semplicità e familiarità: non devi imparare a usare nuovi strumenti oppure API per usare Dataproc, semplificando lo spostamento di progetti esistenti in Dataproc senza ripensare lo sviluppo. Spark, Hadoop, Pig e Hive vengono aggiornati di frequente, perciò puoi essere più produttivo più rapidamente.
Che cosa è incluso in Dataproc?
Per un elenco delle versioni dei connettori open source (Hadoop, Spark, Hive e Pig) e della piattaforma Google Cloud supportate da Dataproc, consulta l'elenco delle versioni di Dataproc.
Inizia a utilizzare Dataproc
Per iniziare rapidamente a utilizzare Dataproc, consulta le guide rapide di Dataproc. Puoi accedere a Dataproc nei seguenti modi:
- Mediante l'API REST
- Utilizzo di Cloud SDK
- Utilizzo dell'interfaccia utente di Dataproc
- Tramite le librerie client di Cloud