Dataproc ist in Apache Hadoop und das Hadoop Distributed File System (HDFS) eingebunden. Die folgenden Features und Überlegungen können bei der Auswahl von Computing- und Datenspeicheroptionen für Dataproc-Cluster und -Jobs wichtig sein:
- HDFS mit Cloud Storage: Dataproc verwendet zum Speichern das Hadoop Distributed File System (HDFS). Darüber hinaus installiert Dataproc automatisch den HDFS-kompatiblen Cloud Storage-Connector, der die gleichzeitige Verwendung von Cloud Storage und HDFS ermöglicht. Daten können dem Cluster über die Upload-/Download-Funktion in HDFS oder Cloud Storage hinzugefügt bzw. daraus entfernt werden.
- VM-Laufwerke:
- Wenn keine lokalen SSDs bereitgestellt werden, werden HDFS-Daten und Zwischen-Shuffle-Daten standardmäßig auf VM-Bootlaufwerken gespeichert. Dies sind nichtflüchtige Speicher.
- Wenn Sie lokale SSDs verwenden, werden HDFS-Daten und Zwischen-Shuffle-Daten auf den SSDs gespeichert.
- Größe und Typ des nichtflüchtigen Speichers wirken sich auf die Leistung und die VM-Größe aus, unabhängig davon, ob HDFS oder Cloud Storage zum Speichern von Daten verwendet werden.
- VM-Bootlaufwerke werden gelöscht, wenn der Cluster gelöscht wird.