Last reviewed 2023-07-20 UTC
Dataproc è un servizio scalabile e completamente gestito per l'esecuzione di job Apache Hadoop e Spark. Con Dataproc, puoi personalizzare le macchine virtuali, nonché fare lo scale up e lo scale down in base alle tue esigenze. Dataproc si integra perfettamente con Cloud Storage, BigQuery, Bigtable e altri servizi Google Cloud.
best practice
- Modalità alta disponibilità di Dataproc: confronta la modalità ad alta disponibilità (HA) di Hadoop con la modalità non ad alta disponibilità predefinita in termini di nomi delle istanze, Apache ZooKeeper, Hadoop Distributed File System (HDFS) e Yet More Resource Negotiator (YARN). Inoltre, vediamo come creare un cluster ad alta disponibilità.
- Cluster a scalabilità automatica: quando utilizzare la scalabilità automatica di Dataproc, come creare un criterio di scalabilità automatica, utilizzo dei criteri multi-cluster, best practice di affidabilità per la configurazione della scalabilità automatica, metriche e log.
- Modalità di flessibilità avanzata (EFM) di Dataproc: esempi di utilizzo della modalità di flessibilità avanzata per ridurre al minimo i ritardi nell'avanzamento dei job, configurazioni avanzate come partizionamento e parallelismo e rimozione controllata YARN sui cluster EFM.
- Abbattimento automatico: uso di un ritiro controllato per ridurre al minimo l'impatto della rimozione dei worker da un cluster, come utilizzare questa funzionalità con i worker secondari ed esempi di comandi per un ritiro controllato.
- Job riavviabili: utilizzando le impostazioni facoltative, puoi impostare i job in modo che vengano riavviati in caso di errore per ridurre i tipi comuni di errori dei job, inclusi problemi di esaurimento della memoria e riavvii imprevisti delle macchine virtuali di Compute Engine.