Che cos'è Dataproc?

Dataproc è un servizio Spark e Hadoop gestito che consente di sfruttare strumenti di dati open source per l'elaborazione batch, le query, il trasferimento di flussi di dati e il machine learning. L'automazione di Dataproc consente di creare cluster rapidamente, gestirli con facilità e risparmiare disattivando i cluster quando non ti servono. Meno tempo e denaro spesi per l'amministrazione, puoi concentrarti sui tuoi job e sui tuoi dati.

Perché utilizzare Dataproc?

Rispetto ai prodotti tradizionali on-premise e ai servizi cloud concorrenti, Dataproc offre una serie di vantaggi esclusivi per i cluster da tre a centinaia di nodi:

Costo ridotto: Dataproc ha un costo pari solo all'1 centesimo di CPU virtuale nel cluster all'ora, in aggiunta alle altre risorse della piattaforma Cloud che utilizzi. Oltre a questo prezzo contenuto, i cluster Dataproc possono includere istanze prerilasciabili che hanno prezzi di calcolo più bassi, riducendo ulteriormente i costi. Invece di arrotondare l'utilizzo all'ora più vicina, Dataproc ti addebita solo ciò che utilizzi effettivamente, con una fatturazione al secondo e un periodo di fatturazione minimo di un minuto.
Superveloce: senza utilizzare Dataproc, la creazione di cluster Spark e Hadoop on-premise o tramite provider IaaS può richiedere da 5 a 30 minuti. In confronto, l'avvio, la scalabilità e l'arresto dei cluster Dataproc sono rapidi da avviare, scalare e arrestare, e ciascuna di queste operazioni richiede in media 90 secondi o meno. Ciò significa che potrai trascorrere meno tempo ad attendere i cluster e più tempo diretto a lavorare sui dati.
Integrato: Dataproc è integrato con altri servizi Google Cloud Platform, come BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging e Cloud Monitoring, il che ti permette di non solo disporre di un cluster Spark o Hadoop, ma anche di una piattaforma dati completa. Ad esempio, puoi utilizzare Dataproc per eseguire facilmente ETL terabyte di dati di log non elaborati direttamente in BigQuery per il reporting aziendale.
Gestito: utilizza cluster Spark e Hadoop senza l'assistenza di un amministratore o di un software speciale. Puoi interagire facilmente con i cluster e i job Spark o Hadoop tramite la console Google Cloud, Cloud SDK o l'API REST Dataproc. Quando hai finito di utilizzare un cluster, puoi semplicemente disattivarlo, in modo da non spendere denaro per un cluster inattivo. Non dovrai preoccuparti di perdere dati, perché Dataproc è integrato con Cloud Storage, BigQuery e Cloud Bigtable.
Semplice e familiare: non è necessario imparare a utilizzare nuovi strumenti o API per utilizzare Dataproc. In questo modo, puoi spostare facilmente i progetti esistenti in Dataproc senza dover ridefinire lo sviluppo. Spark, Hadoop, Pig e Hive vengono aggiornati di frequente, in modo da poter essere più produttivo.

Che cosa è incluso in Dataproc?

Per un elenco delle versioni open source (Hadoop, Spark, Hive e Pig) e Google Cloud Platform supportate da Dataproc, consulta l'elenco delle versioni di Dataproc.

Introduzione a Dataproc

Per un avvio rapido di Dataproc, consulta le guide rapide di Dataproc. Puoi accedere a Dataproc nei seguenti modi:

Tramite l'API REST.
Utilizzo di Cloud SDK
Utilizzo dell'UI di Dataproc
Tramite le librerie client Cloud