Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Dataproc ist in Apache Hadoop und das Hadoop Distributed File System (HDFS) eingebunden. Die folgenden Features und Überlegungen können bei der Auswahl von Computing- und Datenspeicheroptionen für Dataproc-Cluster und -Jobs wichtig sein:
HDFS mit Cloud Storage: Dataproc verwendet zum Speichern das Hadoop Distributed File System (HDFS). Darüber hinaus installiert Dataproc automatisch den HDFS-kompatiblen Cloud Storage-Connector, der die gleichzeitige Verwendung von Cloud Storage und HDFS ermöglicht. Daten können per Upload und Download in HDFS oder Cloud Storage in einen Cluster verschoben und daraus entfernt werden.
VM-Laufwerke:
Wenn keine lokalen SSDs bereitgestellt werden, werden HDFS-Daten und Zwischen-Shuffle-Daten standardmäßig auf VM-Bootlaufwerken gespeichert. Dies sind nichtflüchtige Speicher.
Wenn Sie lokale SSDs verwenden, werden HDFS-Daten und Zwischen-Shuffle-Daten auf den SSDs gespeichert.
Die Größe und der Typ des nichtflüchtigen Speichers wirken sich auf die Leistung und die VM-Größe aus, unabhängig davon, ob für die Datenspeicherung HDFS oder Cloud Storage verwendet wird.
VM-Bootlaufwerke werden gelöscht, wenn der Cluster gelöscht wird.