Auf dieser Seite werden die Pipelineeinstellungen, die Sie anpassen können, und ihre Auswirkungen auf die Leistung beschrieben.
Die Leistung einer Pipeline hängt von folgenden Faktoren ab:
- Umfang und Merkmale Ihrer Daten
- Struktur der Pipeline
- Größenanpassung bei Clustern
- Von Ihrer Cloud Data Fusion-Pipeline verwendete Plug-ins
Größenanpassung bei Clustern
Masterknoten verwenden Ressourcen, die der Anzahl der Pipelines oder zusätzlichen Anwendungen proportional entsprechen, die auf dem Cluster ausgeführt werden. Wenn Sie Pipelines auf sitzungsspezifischen Clustern ausführen, verwenden Sie 2 CPUs und 8 GB Arbeitsspeicher für die Masterknoten. Wenn Sie nichtflüchtige Cluster verwenden, benötigen Sie möglicherweise größere Masterknoten, um mit dem Workflow Schritt zu halten. Um festzustellen, ob Sie größere Master-Knoten benötigen, können Sie die Arbeitsspeicher- und CPU-Nutzung auf dem Knoten überwachen. Wir empfehlen, für Ihre Worker-Knoten mindestens 2 CPUs und 8 GB Arbeitsspeicher zu verwenden. Wenn Sie Ihre Pipelines für die Nutzung größerer Arbeitsspeicher konfiguriert haben, müssen Sie größere Worker verwenden.
Achten Sie darauf, dass Ihr Cluster genügend Knoten hat, um eine möglichst parallele Verarbeitung zu ermöglichen, um die Ausführungszeit zu minimieren.
Weitere Informationen zur Clustergröße
Ressourcen
Mit Pipelines können Sie die Anzahl der CPUs und die Größe des Arbeitsspeichers angeben, die dem Spark-Treiber und jedem Spark-Executor bereitgestellt werden sollen. Der Fahrer erledigt nicht viel. Daher reicht der Standardwert von 1 CPU und 2 GB Arbeitsspeicher aus, um die meisten Pipelines auszuführen. Möglicherweise müssen Sie den Arbeitsspeicher für Pipelines mit vielen Phasen oder großen Schemas erhöhen. Die Anzahl der CPUs, die einem Executor zugewiesen sind, bestimmt die Anzahl der Aufgaben, die der Executor parallel ausführen kann.
Weitere Informationen zu Ressourcen
Feinabstimmung der Ausführungs-Engine
In Cloud Data Fusion-Version 6.4 und höher konfiguriert Cloud Data Fusion die Ausführungs-Engine automatisch für optimale Leistung für sitzungsspezifische Dataproc-Cluster. Für statische Dataproc-Cluster konfigurieren Sie Ihre Ausführungs-Engine.
Weitere Informationen
Weitere Informationen zu den hier vorgestellten Konzepten finden Sie im Leitfaden zur Leistungsoptimierung der CDAP-Datenpipeline.