Dataflow에서 커스텀 컨테이너 사용

커스텀 컨테이너 이미지를 제공하여 Dataflow 파이프라인에서 사용자 코드의 런타임 환경을 맞춤설정할 수 있습니다. 커스텀 컨테이너는 Dataflow Runner v2를 사용하는 파이프라인에서 지원됩니다.

Dataflow는 작업자 VM을 시작할 때 Docker 컨테이너 이미지를 사용하여 작업자에서 컨테이너화된 SDK 프로세스를 시작합니다. 기본적으로 파이프라인은 사전 빌드된 Apache Beam 이미지를 사용합니다. 하지만 Dataflow 작업에 대해 커스텀 컨테이너 이미지를 제공할 수 있습니다. 커스텀 컨테이너 이미지를 지정하면 Dataflow는 지정된 이미지를 가져오는 작업자를 시작합니다.

다음과 같은 이유로 커스텀 컨테이너를 사용할 수 있습니다.

  • 파이프라인 종속 항목을 사전 설치하여 작업자 시작 시간을 단축합니다.
  • 공개 저장소에서 사용할 수 없는 파이프라인 종속 항목을 사전 설치합니다.
  • 공개 저장소에 대한 액세스가 해제되면 파이프라인 종속 항목을 사전 설치합니다. 보안상의 이유로 액세스가 사용 중지될 수 있습니다.
  • 큰 파일을 미리 스테이징하여 작업자 시작 시간을 단축합니다.
  • 백그라운드에서 서드 파티 소프트웨어를 실행합니다.
  • 실행 환경을 맞춤설정합니다.

Apache Beam에서 커스텀 컨테이너에 대한 자세한 내용은 Apache Beam 커스텀 컨테이너 가이드를 참조하세요. 커스텀 컨테이너를 사용하는 Python 파이프라인 예시는 Dataflow 커스텀 컨테이너를 참조하세요.

다음 단계