Dataproc ist in Apache Hadoop und das Hadoop Distributed File System (HDFS) eingebunden. Die folgenden Features und Überlegungen können bei der Auswahl von Computing- und Datenspeicheroptionen für Dataproc-Cluster und -Jobs wichtig sein:
- HDFS mit Cloud Storage: Dataproc verwendet zum Speichern das Hadoop Distributed File System (HDFS). Darüber hinaus installiert Dataproc automatisch den HDFS-kompatiblen Cloud Storage-Connector, der die gleichzeitige Verwendung von Cloud Storage und HDFS ermöglicht. Daten können per Upload und Download in HDFS oder Cloud Storage in einen Cluster verschoben und daraus entfernt werden.
- VM-Laufwerke:
- Wenn keine lokalen SSDs bereitgestellt werden, werden HDFS-Daten und Zwischen-Shuffle-Daten standardmäßig auf VM-Bootlaufwerken gespeichert. Dies sind nichtflüchtige Speicher.
- Wenn Sie lokale SSDs verwenden, werden HDFS-Daten und Zwischen-Shuffle-Daten auf den SSDs gespeichert.
- Die Größe und der Typ des nichtflüchtigen Speichers wirken sich auf die Leistung und die VM-Größe aus, unabhängig davon, ob für die Datenspeicherung HDFS oder Cloud Storage verwendet wird.
- VM-Bootlaufwerke werden gelöscht, wenn der Cluster gelöscht wird.