Almacenamiento de datos de Hadoop en Dataproc

Dataproc se integra con Apache Hadoop y el sistema de archivos distribuido de Hadoop (HDFS). Las siguientes características y consideraciones pueden ser importantes cuando se seleccionan opciones de procesamiento y almacenamiento de datos para clústeres y trabajos de Dataproc:

  • HDFS con Cloud Storage: Dataproc usa Hadoop Distributed File System (HDFS) para el almacenamiento. Además, Dataproc instala de forma automática el conector de Cloud Storage compatible con HDFS, que permite el uso de Cloud Storage en paralelo con HDFS. Se pueden ingresar y quitar datos de un clúster a través de la carga y descarga en HDFS o Cloud Storage.
  • Discos de VM:
    • De forma predeterminada, cuando no se proporcionan SSD locales, los datos de HDFS y los datos aleatorios intermedios se almacenan en los discos de arranque de VM, que son discos persistentes.
    • Si usas SSD locales, los datos de HDFS y los datos aleatorios intermedios se almacenan en los SSD.
    • El tamaño y el tipo de disco persistente (PD) afectan el rendimiento y el tamaño de la VM, ya sea que se use HDFS o Cloud Storage para el almacenamiento de datos.
    • Los discos de arranque de VM se borran cuando se borra el clúster.