Pipelineleistung

Die Leistung der Pipeline hängt von der Größe und den Eigenschaften Ihrer Daten, der Struktur der Pipeline, der Clustergröße und den Plug-ins ab, die Ihre Cloud Data Fusion-Pipeline verwendet. Auf dieser Seite werden die Pipeline-Einstellungen beschrieben, die Sie anpassen können, sowie deren Auswirkungen auf die Leistung.

Größenanpassung bei Clustern

Masterknoten verwenden Ressourcen, die der Anzahl der Pipelines oder zusätzlichen Anwendungen proportional entsprechen, die auf dem Cluster ausgeführt werden. Wenn Sie Pipelines auf sitzungsspezifischen Clustern ausführen, verwenden Sie 2 CPUs und 8 GB Arbeitsspeicher für die Masterknoten. Wenn Sie nichtflüchtige Cluster verwenden, benötigen Sie möglicherweise größere Masterknoten, um mit dem Workflow Schritt zu halten. Sie können die Speicher- und CPU-Auslastung auf dem Knoten überwachen, um festzustellen, ob Sie größere Masterknoten benötigen. Wir empfehlen, die Größe Ihrer Worker-Knoten mit mindestens 2 CPUs und 8 GB Arbeitsspeicher festzulegen. Wenn Sie Ihre Pipelines so konfiguriert haben, dass sie größere Speichermengen verwenden, müssen Sie größere Worker verwenden.

Achten Sie darauf, dass Ihr Cluster genügend Knoten hat, um eine möglichst parallele Verarbeitung zu ermöglichen, um die Ausführungszeit zu minimieren.

Weitere Informationen zur Clustergröße

Ressourcen

Mit Pipelines können Sie die Anzahl der CPUs und die Größe des Arbeitsspeichers angeben, die dem Spark-Treiber und jedem Spark-Executor zugewiesen werden sollen. Da der Treiber nur wenig Arbeit hat, reicht der Standardwert von 1 CPU und 2 GB Arbeitsspeicher im Allgemeinen aus, um die meisten Pipelines auszuführen. Möglicherweise müssen Sie den Speicher für Pipelines erhöhen, die viele Phasen oder große Schemas enthalten. Die Anzahl der CPUs, die einem Executor zugewiesen sind, bestimmt die Anzahl der Aufgaben, die der Executor parallel ausführen kann.

Weitere Informationen zu Ressourcen

Feinabstimmung der Ausführungs-Engine

In Cloud Data Fusion Version 6.4 und höher konfiguriert Cloud Data Fusion die Ausführungs-Engine automatisch für die beste Leistung für sitzungsspezifische Dataproc-Cluster. Für statische Dataproc-Cluster konfigurieren Sie Ihre Ausführungs-Engine.

Weitere Informationen

Weitere Informationen zu den hier vorgestellten Konzepten finden Sie im Leitfaden zur Leistungsoptimierung der CDAP-Datenpipeline.