Archiviazione dei dati Hadoop di Dataproc

Dataproc si integra con Apache Hadoop e con il file system distribuito Hadoop (HDFS). Le seguenti funzionalità e considerazioni possono essere importanti quando si selezionano le opzioni di calcolo e archiviazione dei dati per i cluster e i job Dataproc:

  • HDFS con Cloud Storage: Dataproc utilizza HDFS (Hadoop Distributed File System) per lo spazio di archiviazione. Inoltre, Dataproc installa automaticamente il connettore Cloud Storage compatibile con HDFS, che consente di utilizzare Cloud Storage in parallelo con HDFS. I dati possono essere spostati all'interno e all'esterno di un cluster tramite caricamento e scaricamento su HDFS o Cloud Storage.
  • Dischi VM:
    • Per impostazione predefinita, se non vengono fornite unità SSD locali, i dati HDFS e i dati di ordinamento intermedio vengono archiviati sui dischi di avvio della VM, che sono dischi permanenti.
    • Se utilizzi unità SSD locali, i dati HDFS e quelli di ordinamento intermedio vengono archiviati sulle unità SSD.
    • Le dimensioni e il tipo di disco permanente (DP) influiscono sulle prestazioni e sulle dimensioni della VM, indipendentemente dall'utilizzo di HDFS o Cloud Storage per l'archiviazione dei dati.
    • I dischi di avvio delle VM vengono eliminati quando viene eliminato il cluster.