Dataproc-Hadoop-Datenspeicher

Dataproc ist in Apache Hadoop und das Hadoop Distributed File System (HDFS) eingebunden. Die folgenden Features und Überlegungen können bei der Auswahl von Computing- und Datenspeicheroptionen für Dataproc-Cluster und -Jobs wichtig sein:

  • HDFS mit Cloud Storage: Dataproc verwendet zum Speichern das Hadoop Distributed File System (HDFS). Darüber hinaus installiert Dataproc automatisch den HDFS-kompatiblen Cloud Storage-Connector, der die gleichzeitige Verwendung von Cloud Storage und HDFS ermöglicht. Daten können dem Cluster über die Upload-/Download-Funktion in HDFS oder Cloud Storage hinzugefügt bzw. daraus entfernt werden.
  • VM-Laufwerke:
    • Wenn keine lokalen SSDs bereitgestellt werden, werden HDFS-Daten und Zwischen-Shuffle-Daten standardmäßig auf VM-Bootlaufwerken gespeichert. Dies sind nichtflüchtige Speicher.
    • Wenn Sie lokale SSDs verwenden, werden HDFS-Daten und Zwischen-Shuffle-Daten auf den SSDs gespeichert.
    • Größe und Typ des nichtflüchtigen Speichers wirken sich auf die Leistung und die VM-Größe aus, unabhängig davon, ob HDFS oder Cloud Storage zum Speichern von Daten verwendet werden.
    • VM-Bootlaufwerke werden gelöscht, wenn der Cluster gelöscht wird.