Esta página foi traduzida pela API Cloud Translation.

Armazenamento de dados do Hadoop do Dataproc

O Dataproc integra-se com o Apache Hadoop e o Hadoop Distributed File System (HDFS). As seguintes funcionalidades e considerações podem ser importantes quando seleciona opções de computação e armazenamento de dados para clusters e tarefas do Dataproc:

HDFS com o Cloud Storage: o Dataproc usa o Hadoop Distributed File System (HDFS) para armazenamento. Além disso, o Dataproc instala automaticamente o conetor do Cloud Storage compatível com o HDFS, o que permite a utilização do Cloud Storage em paralelo com o HDFS. Os dados podem ser movidos para dentro e para fora de um cluster através do carregamento e da transferência para o HDFS ou o Cloud Storage.
Discos da VM:
- Por predefinição, quando não são fornecidos SSDs locais, os dados HDFS e os dados de mistura intermédios são armazenados em discos de arranque de VMs, que são discos persistentes.
- Se usar SSDs locais, os dados do HDFS e os dados de mistura intermédios são armazenados nos SSDs.
- O tamanho e o tipo do disco persistente (PD) afetam o desempenho e o tamanho da VM, quer use o HDFS ou o Cloud Storage para o armazenamento de dados.
- Os discos de arranque da VM são eliminados quando o cluster é eliminado.

Armazenamento de dados do Hadoop do Dataproc Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Armazenamento de dados do Hadoop do Dataproc