Dataproc s'intègre à Apache Hadoop et au système de fichiers Hadoop Distributed File System (HDFS). Les fonctionnalités et considérations suivantes peuvent être importantes lors de la sélection des options de calcul et de stockage des données pour les clusters et les tâches Dataproc :
- HDFS avec Cloud Storage : Dataproc utilise le système de fichiers HDFS (Hadoop Distributed File System) pour le stockage. En outre, Dataproc installe automatiquement le connecteur Cloud Storage compatible avec le système de fichiers HDFS, ce qui permet d'utiliser Cloud Storage en parallèle. Les données peuvent être déplacées vers et depuis un cluster par importation et téléchargement vers HDFS ou Cloud Storage.
- Disques de VM :
- Par défaut, lorsqu'aucun disque SSD local n'est fourni, les données HDFS et les données de brassage intermédiaires sont stockées sur des disques de démarrage de VM, qui sont des disques persistants.
- Si vous utilisez des disques SSD locaux, les données HDFS et les données de brassage intermédiaire sont stockées sur les disques SSD.
- La taille et le type des disques persistants affectent les performances et la taille de la VM, que vous utilisiez HDFS ou Cloud Storage pour le stockage de données.
- Les disques de démarrage de VM sont supprimés lors de la suppression du cluster.