O Dataproc se integra ao Apache Hadoop e ao Hadoop Distribued File System (HDFS). Os seguintes recursos e considerações podem ser importantes ao selecionar opções de computação e armazenamento de dados para clusters e jobs do Dataproc:
- HDFS com Cloud Storage: o Dataproc usa o Hadoop Distributed File System (HDFS) para armazenamento. Além disso, o Dataproc instala automaticamente o conector do Cloud Storage compatível com o HDFS, que permite o uso do Cloud Storage em paralelo com o HDFS. Os dados podem ser movidos para dentro e para fora de um cluster por meio de upload/download para o HDFS ou o Cloud Storage.
- Discos de VM:
- Por padrão, quando nenhum SSD local é fornecido, os dados HDFS e dados de embaralhamento intermediários são armazenados em discos de inicialização de VMs, que são discos permanentes.
- Se você usar SSDs locais, os dados do HDFS e os dados aleatórios intermediários serão armazenados nos SSDs.
- O tamanho e o tipo de disco persistente (DP, na sigla em inglês) afetam o desempenho e o tamanho da VM, seja usando o HDFS ou o Cloud Storage para armazenamento de dados.
- Os discos de inicialização de VM são excluídos quando o cluster é excluído.