Armazenamento de dados do Dataproc Hadoop

O Dataproc se integra ao Apache Hadoop e ao Hadoop Distribued File System (HDFS). Os seguintes recursos e considerações podem ser importantes ao selecionar opções de computação e armazenamento de dados para clusters e jobs do Dataproc:

  • HDFS com Cloud Storage: o Dataproc usa o Hadoop Distributed File System (HDFS) para armazenamento. Além disso, o Dataproc instala automaticamente o conector do Cloud Storage compatível com o HDFS, que permite o uso do Cloud Storage em paralelo com o HDFS. Os dados podem ser movidos para dentro e para fora de um cluster por meio de upload e download para o HDFS ou o Cloud Storage.
  • Discos de VM:
    • Por padrão, quando nenhum SSD local é fornecido, os dados HDFS e dados de embaralhamento intermediários são armazenados em discos de inicialização de VMs, que são discos permanentes.
    • Se você usar SSDs locais, os dados do HDFS e os dados aleatórios intermediários serão armazenados nos SSDs.
    • O tamanho e o tipo do disco permanente (DP) afetam o desempenho e o tamanho da VM, seja usando o HDFS ou o Cloud Storage para armazenamento de dados.
    • Os discos de inicialização de VM são excluídos quando o cluster é excluído.