Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
Console
  • Risparmia con il nostro approccio trasparente ai prezzi
  • Il pagamento a consumo di Google Cloud offre risparmi automatici in base all'utilizzo mensile e alle tariffe scontate per risorse prepagate. Contattaci oggi per richiedere un preventivo.
Google Cloud
Scopri come la tua organizzazione può prepararsi alla nuova economia dei dati con la lakehouse di analisi. Registrati qui.
Vai a
Dataproc

Dataproc

Dataproc è un servizio completamente gestito e a scalabilità elevata per l'esecuzione di Apache Hadoop, Apache Spark, Apache Flink, Presto e oltre 30 strumenti e framework open source. Utilizza Dataproc per la modernizzazione dei data lake, l'ETL e attività di data science sicure su scala mondiale, completamente integrati con Google Cloud a un costo molto inferiore.

  • Aperto: esegui analisi dei dati open source su larga scala, con sicurezza di livello aziendale

  • Flessibile: utilizza il serverless o gestisci i cluster su Google Compute e Kubernetes 

  • Intelligente: abilita gli utenti dei dati tramite le integrazioni con Vertex AI, BigQuery e Dataplex 

  • Sicuro: configura sicurezza avanzata come Kerberos, Apache Ranger e Autenticazione personale

  • Conveniente: ottieni una riduzione del TCO del 54% rispetto ai data lake on-premise con prezzi al secondo

Vantaggi

Modernizza l'elaborazione dei dati open source

Che tu abbia bisogno di VM o Kubernetes, di memoria extra per Presto o di GPU, Dataproc permette di velocizzare l'elaborazione di dati e analisi attraverso ambienti on demand appositamente creati o serverless.

Software open source intelligente e senza interruzioni per data science

Consenti ai data scientist e agli analisti di dati di eseguire senza interruzioni job di data science tramite integrazioni native con BigQuery, Dataplex e Vertex AI.

Sicurezza, conformità e governance avanzate

Applica controlli dell'accesso granulari a livello di riga e colonna con Dataproc, BigLake e Dataplex. Gestisci e applica autorizzazione e autenticazione degli utenti utilizzando i criteri esistenti di KerberosRanger di Apache

Funzionalità principali

Documentazione

Casi d'uso

Casi d'uso

Caso d'uso
Spostamento dei cluster Hadoop e Spark nel cloud

Le aziende eseguono la migrazione dei loro cluster Apache Hadoop e Spark on-premise esistenti su Dataproc per gestire i costi e liberare la potenza della scalabilità elastica. Con Dataproc, le aziende dispongono di un cluster creato appositamente e completamente gestito che può scalare automaticamente per supportare qualsiasi job di elaborazione di dati o analisi. 

Tutte le funzionalità

Tutte le funzionalità

Esegui il deployment di applicazioni e pipeline Spark che scalano automaticamente senza alcun provisioning o ottimizzazione manuale dell'infrastruttura. 
Cluster ridimensionabiliCrea e scala i cluster rapidamente con un'ampia gamma di tipi di macchine virtuali, dimensioni dei dischi, opzioni di networking e con il numero di nodi che vuoi tu.
Scalabilità automatica dei clusterLa scalabilità automatica di Dataproc offre un meccanismo per automatizzare la gestione delle risorse cluster e permette di aggiungere e sottrarre automaticamente i worker (nodi) del cluster.
Integrazione con CloudIntegrazione perfetta con Cloud Storage, BigQuery, Dataplex, Vertex AI, Composer, Cloud Bigtable, Cloud Logging e Cloud Monitoring per ottenere una piattaforma dati più completa e robusta.
Controllo delle versioniIl controllo delle versioni delle immagini consente di passare da una versione all'altra di Apache Spark, Apache Hadoop e altri strumenti.
Eliminazione pianificata dei clusterPer evitare di farsi carico del costo di un cluster non attivo, è possibile utilizzare l'eliminazione pianificata di Dataproc, che mette a disposizione opzioni per eliminare un cluster dopo un determinato periodo di inattività, in una determinata data futura oppure dopo un periodo di tempo specificato.
Configurazione automatica o manualeDataproc configura automaticamente l'hardware e il software, ma consente anche il controllo manuale.
Strumenti per sviluppatoriSono disponibili diversi strumenti per gestire un cluster, tra cui una UI web facile da utilizzare, Cloud SDK, API RESTful e accesso SSH.
Azioni di inizializzazioneEsegui azioni di inizializzazione per installare o personalizzare le impostazioni e le librerie necessarie quando viene creato il cluster.
Componenti facoltativiUtilizza i componenti facoltativi per installare e configurare componenti aggiuntivi sul cluster. I componenti facoltativi vengono integrati con i componenti di Dataproc e offrono ambienti completamente configurati per Zeppelin, Presto e altri componenti software open source correlati all'ecosistema Apache Hadoop e Apache Spark.
Container e immagini personalizzatiÈ possibile eseguire il provisioning di Spark serverless Dataproc con container Docker personalizzati. Puoi eseguire il provisioning dei cluster Dataproc con un'immagine personalizzata che include i pacchetti del sistema operativo Linux preinstallati.
Macchine virtuali flessibiliI cluster possono utilizzare tipi di macchine personalizzate e macchine virtuali prerilasciabili per ottenere la dimensione perfetta per le proprie esigenze.
Gateway dei componenti e accesso ai blocchi noteIl gateway dei componenti di Dataproc consente l'accesso sicuro con un solo clic alle interfacce web dei componenti predefiniti e facoltativi di Dataproc in esecuzione sul cluster.
Modelli di flusso di lavoroI modelli di flusso di lavoro di Dataproc offrono un meccanismo flessibile e facile da usare per la gestione e l'esecuzione dei flussi di lavoro. Un modello di flusso di lavoro è una configurazione del flusso di lavoro riutilizzabile che definisce un grafico di job con informazioni sul punto di esecuzione di questi job. 
Gestione dei criteri automatizzata Standardizza criteri di sicurezza, costi e infrastruttura su un parco risorse di cluster. Puoi creare criteri per la gestione delle risorse, la sicurezza o la rete a livello di progetto. Puoi anche semplificare per gli utenti l'utilizzo di immagini, componenti, metastore e altri servizi periferici corretti, in modo da gestire il tuo parco risorse di cluster e criteri Spark serverless in futuro. 
Avvisi intelligentiGli avvisi consigliati di Dataproc consentono di regolare le soglie per gli avvisi preconfigurati in modo da ricevere avvisi sui cluster inattivi, in fase di esecuzione, sui job, sui cluster sovrautilizzati e altro ancora. I clienti possono personalizzare ulteriormente questi avvisi e persino creare funzionalità avanzate per la gestione di cluster e job. Queste funzionalità consentono ai clienti di gestire il proprio parco risorse su vasta scala.
Dataproc MetastoreHive Metastore (HMS) completamente gestito e a disponibilità elevata con controllo granulare dell'accesso e integrazione con BigQuery Metastore, Dataplex e Data Catalog.

Prezzi

Prezzi

I prezzi di Dataproc si basano sul numero di vCPU e sul loro tempo di esecuzione. Mentre i prezzi mostrano la tariffa oraria, ti vengono addebitati i costi al secondo, pertanto paghi solo per quello che utilizzi.

Esempio: 6 cluster (1 principale + 5 worker) di 4 CPU ciascuna in esecuzione per 2 ore hanno un costo di 0,48 $.  Costo di Dataproc = numero di vCPU * ore * prezzo Dataproc = 24 * 2 * 0,01 $ = 0,48 $

Consulta la pagina dei prezzi per ulteriori dettagli.

Partner

Partner

Dataproc si integra con partner fondamentali per estendere i tuoi investimenti e livelli di competenza esistenti. 

Fai il prossimo passo

Inizia a creare su Google Cloud con 300 $ di crediti gratuiti e oltre 20 prodotti Always Free.