Armazenamento de dados do Hadoop do Dataproc

O Dataproc integra-se com o Apache Hadoop e o Hadoop Distributed File System (HDFS). As seguintes funcionalidades e considerações podem ser importantes quando seleciona opções de computação e armazenamento de dados para clusters e tarefas do Dataproc:

  • HDFS com o Cloud Storage: o Dataproc usa o Hadoop Distributed File System (HDFS) para armazenamento. Além disso, o Dataproc instala automaticamente o conetor do Cloud Storage compatível com o HDFS, o que permite a utilização do Cloud Storage em paralelo com o HDFS. Os dados podem ser movidos para dentro e para fora de um cluster através do carregamento e da transferência para o HDFS ou o Cloud Storage.
  • Discos da VM:
    • Por predefinição, quando não são fornecidos SSDs locais, os dados HDFS e os dados de mistura intermédios são armazenados em discos de arranque de VMs, que são discos persistentes.
    • Se usar SSDs locais, os dados do HDFS e os dados de mistura intermédios são armazenados nos SSDs.
    • O tamanho e o tipo do disco persistente (PD) afetam o desempenho e o tamanho da VM, quer use o HDFS ou o Cloud Storage para o armazenamento de dados.
    • Os discos de arranque da VM são eliminados quando o cluster é eliminado.