Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
O Dataproc se integra ao Apache Hadoop e ao Hadoop Distribued
File System (HDFS). Os seguintes recursos e considerações podem ser importantes
ao selecionar opções de computação e armazenamento de dados para
clusters e jobs do Dataproc:
HDFS com Cloud Storage:
o Dataproc usa o
Hadoop Distributed File System (HDFS) para armazenamento. Além disso,
o Dataproc instala automaticamente o
conector do Cloud Storage
compatível com o HDFS, que permite o uso do Cloud Storage
em paralelo com o HDFS. Os dados podem ser movidos para dentro e para fora de um cluster por meio de upload e download para o HDFS ou o Cloud Storage.
Discos de VM:
Por padrão, quando nenhum SSD local é fornecido, os dados HDFS e dados de embaralhamento intermediários
são armazenados em discos de inicialização de VMs, que são
discos permanentes.
Se você usar SSDs locais,
os dados do HDFS e os dados aleatórios intermediários serão armazenados nos SSDs.
O tamanho e o tipo do disco permanente (DP) afetam o desempenho e o tamanho da VM, seja usando o HDFS ou o Cloud Storage
para armazenamento de dados.
Os discos de inicialização de VM são excluídos quando o cluster é excluído.