Dataproc se integra con Apache Hadoop y el sistema de archivos distribuido de Hadoop (HDFS). Las siguientes funciones y consideraciones pueden ser importantes a la hora de seleccionar opciones de computación y almacenamiento de datos para clústeres y trabajos de Dataproc:
- HDFS con Cloud Storage: Dataproc usa el sistema de archivos distribuidos de Hadoop (HDFS) para el almacenamiento. Además, Dataproc instala automáticamente el conector de Cloud Storage compatible con HDFS, lo que permite usar Cloud Storage en paralelo con HDFS. Los datos se pueden mover dentro y fuera de un clúster mediante la carga y descarga en HDFS o Cloud Storage.
- Discos de VM:
- De forma predeterminada, cuando no se proporcionan SSDs locales, los datos de HDFS y los datos de orden aleatorio intermedios se almacenan en los discos de arranque de las VMs, que son Persistent Disks.
- Si usas SSDs locales, los datos de HDFS y los datos de orden aleatorio intermedios se almacenan en los SSDs.
- El tamaño y el tipo de Persistent Disk (PD) influyen en el rendimiento y el tamaño de la VM, tanto si se usa HDFS como Cloud Storage para el almacenamiento de datos.
- Los discos de arranque de las VMs se eliminan cuando se elimina el clúster.