Archiviazione dei dati Hadoop di Dataproc

Dataproc si integra con Apache Hadoop e Hadoop Distributed File System (HDFS). Le seguenti funzionalità e considerazioni possono essere importanti quando selezioni le opzioni di calcolo e archiviazione dati per i cluster e i job Dataproc:

  • HDFS con Cloud Storage: Dataproc utilizza Hadoop Distributed File System (HDFS) per l'archiviazione. Inoltre, Dataproc installa automaticamente il connettore Cloud Storage compatibile con HDFS, che consente l'utilizzo di Cloud Storage in parallelo con HDFS. I dati possono essere spostati all'interno e all'esterno di un cluster tramite caricamento e download su HDFS o Cloud Storage.
  • Dischi VM:
    • Per impostazione predefinita, quando non vengono forniti SSD locali, i dati HDFS e i dati di shuffle intermedi vengono archiviati sui dischi di avvio della VM, che sono dischi permanenti.
    • Se utilizzi SSD locali, i dati HDFS e i dati di shuffle intermedi vengono archiviati sugli SSD.
    • Le dimensioni e il tipo di Persistent Disk (DP) influiscono sulle prestazioni e sulle dimensioni della VM, indipendentemente dal fatto che utilizzi HDFS o Cloud Storage per l'archiviazione dei dati.
    • I dischi di avvio delle VM vengono eliminati quando viene eliminato il cluster.