Dataproc si integra con Apache Hadoop e il file system distribuito Hadoop (HDFS). Le funzionalità e le considerazioni seguenti possono essere importanti quando si selezionano le opzioni di calcolo e archiviazione dati per i cluster e i job Dataproc:
- HDFS con Cloud Storage: Dataproc utilizza il file system distribuito Hadoop (HDFS) per l'archiviazione. Inoltre, Dataproc installa automaticamente il connettore Cloud Storage compatibile con HDFS, che consente l'utilizzo di Cloud Storage insieme ad HDFS. I dati possono essere spostati all'interno e all'esterno di un cluster tramite caricamento e download su HDFS o Cloud Storage.
- Dischi VM:
- Per impostazione predefinita, quando non vengono forniti SSD locali, i dati HDFS e i dati di shuffling intermedio vengono archiviati su dischi di avvio delle VM, ovvero dischi permanenti.
- Se utilizzi SSD locali, i dati HDFS e i dati di shuffling intermedio vengono archiviati sulle unità SSD.
- Le dimensioni e il tipo di disco permanente (DP) influiscono sulle prestazioni e sulle dimensioni della VM, sia che si utilizzi HDFS o Cloud Storage per l'archiviazione dei dati.
- I dischi di avvio delle VM vengono eliminati con l'eliminazione del cluster.