Diese Seite wurde von der Cloud Translation API übersetzt.

Benutzerdefinierte Container in Dataflow verwenden

Sie können die Laufzeitumgebung für Nutzercode in Dataflow-Pipelines anpassen, indem Sie ein benutzerdefiniertes Container-Image bereitstellen. Benutzerdefinierte Container werden für Pipelines unterstützt, die Dataflow Runner v2 verwenden.

Wenn Dataflow Worker-VMs startet, werden Docker-Container-Images verwendet, um Container-SDK-Prozesse auf den Workern zu starten. Standardmäßig verwendet eine Pipeline ein vorkonfiguriertes Apache Beam-Image. Sie können jedoch ein benutzerdefiniertes Container-Image für Ihren Dataflow-Job angeben. Wenn Sie ein benutzerdefiniertes Container-Image angeben, startet Dataflow Worker, die das angegebene Image abrufen.

Benutzerdefinierte Container können aus folgenden Gründen verwendet werden:

Pipelineabhängigkeiten vorinstallieren, um die Startzeit des Workers zu verkürzen.
Pipelineabhängigkeiten vorinstallieren, die in öffentlichen Repositories nicht verfügbar sind.
Pipelineabhängigkeiten vorinstallieren, wenn der Zugriff auf öffentliche Repositories deaktiviert ist. Der Zugriff kann aus Sicherheitsgründen deaktiviert sein.
Große Dateien vorab bereitstellen, um die Startzeit des Workers zu reduzieren.
Drittanbieter-Software wird im Hintergrund ausgeführt.
Ausführungsumgebung anpassen.

Weitere Informationen zu benutzerdefinierten Containern in Apache Beam finden Sie im Leitfaden zu benutzerdefinierten Containern für Apache Beam. Beispiele für Python-Pipelines, die benutzerdefinierte Container verwenden, finden Sie unter Benutzerdefinierte Dataflow-Container.

Benutzerdefinierte Container in Dataflow verwenden Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Nächste Schritte

Benutzerdefinierte Container in Dataflow verwenden