Archiviazione dati Dataproc Hadoop

Dataproc si integra con Apache Hadoop e il file system distribuito Hadoop (HDFS). Le funzionalità e le considerazioni seguenti possono essere importanti quando si selezionano le opzioni di calcolo e archiviazione dati per i cluster e i job Dataproc:

  • HDFS con Cloud Storage: Dataproc utilizza il file system distribuito Hadoop (HDFS) per l'archiviazione. Inoltre, Dataproc installa automaticamente il connettore Cloud Storage compatibile con HDFS, che consente l'utilizzo di Cloud Storage insieme ad HDFS. I dati possono essere spostati all'interno e all'esterno di un cluster tramite caricamento e download su HDFS o Cloud Storage.
  • Dischi VM:
    • Per impostazione predefinita, quando non vengono forniti SSD locali, i dati HDFS e i dati di shuffling intermedio vengono archiviati su dischi di avvio delle VM, ovvero dischi permanenti.
    • Se utilizzi SSD locali, i dati HDFS e i dati di shuffling intermedio vengono archiviati sulle unità SSD.
    • Le dimensioni e il tipo di disco permanente (DP) influiscono sulle prestazioni e sulle dimensioni della VM, sia che si utilizzi HDFS o Cloud Storage per l'archiviazione dei dati.
    • I dischi di avvio delle VM vengono eliminati con l'eliminazione del cluster.