Cloud Dataflow 템플릿

Cloud Dataflow 템플릿을 사용하면 Cloud Storage에서 파이프라인을 스테이징하고 다양한 환경에서 실행할 수 있습니다. Google에서 제공하는 템플릿 중 하나를 사용하거나 템플릿을 직접 만들 수 있습니다.

템플릿은 기존 Cloud Dataflow 배포와 비교할 때 다음과 같은 추가적인 이점을 제공합니다.

  • 파이프라인을 실행하기 위해 매번 코드를 다시 컴파일할 필요가 없습니다.
  • 개발 환경 없이 그리고 기존 배포에서 흔히 발견되는 관련 종속 항목 없이 파이프라인을 실행할 수 있습니다. 이 템플릿은 반복되는 일괄 작업을 예약하는 데 유용합니다.
  • 런타임 매개변수를 사용하면 파이프라인 실행을 맞춤설정할 수 있습니다.
  • 기술 지식이 없는 사용자도 Google Cloud Platform Console, gcloud 명령줄 도구 또는 REST API에서 템플릿을 실행할 수 있습니다.

기존 작업 실행 및 템플릿 작업 실행 비교

Cloud Dataflow 템플릿은 기존 작업 실행 워크플로와 다른 새로운 개발 및 실행 워크플로를 도입합니다. 템플릿 워크플로는 개발 단계를 스테이징 및 실행 단계와 분리합니다.

기존 Cloud Dataflow 작업

Apache Beam 파이프라인 개발 및 작업 실행은 모두 개발 환경 내에서 이뤄집니다.

기존 Cloud Dataflow 작업의 일반적인 워크플로:

  1. 개발자가 개발 환경을 만들고 파이프라인을 개발합니다. 이 환경에는 Apache Beam SDK와 기타 종속 항목이 포함됩니다.
  2. 사용자가 개발 환경에서 파이프라인을 실행합니다. Apache Beam SDK는 Cloud Storage에서 파일을 스테이징하고, 작업 요청 파일을 만들고, 파일을 Cloud Dataflow 서비스에 제출합니다.

템플릿 Cloud Dataflow 작업

Cloud Dataflow 템플릿을 사용하는 경우, 스테이징과 실행은 별개의 단계입니다. 따라서 누가 어디에서 작업을 실행할 수 있는지를 더 유연하게 결정할 수 있습니다.

템플릿 Cloud Dataflow 작업의 일반적인 워크플로:

  1. 개발자가 개발 환경을 만들고 파이프라인을 개발합니다. 이 환경에는 Apache Beam SDK와 기타 종속 항목이 포함됩니다.
  2. 개발자가 파이프라인을 실행하고 템플릿을 만듭니다. Apache Beam SDK는 Cloud Storage에서 파일을 스테이징하고, 작업 요청과 유사한 템플릿 파일을 만들고, 템플릿 파일을 Cloud Storage에 저장합니다.
  3. 기술 지식이 없는 사용자도 GCP Console, gcloud 명령줄 도구 또는 REST API에서 작업을 간편하게 실행하여 템플릿 파일 실행 요청을 Cloud Dataflow 서비스에 제출할 수 있습니다.

시작하기 전에

템플릿을 직접 만들려면 사용 중인 Apache Beam SDK 버전이 템플릿 만들기를 지원하는지 확인합니다.

자바: SDK 2.x

자바용 Cloud Dataflow SDK 2.x로 템플릿을 만들려면 버전 2.0.0-beta3 이상이 필요합니다.

Python

Python용 Cloud Dataflow SDK 2.x로 템플릿을 만들려면 버전 2.0.0 이상이 필요합니다.

자바: SDK 1.x

자바용 Cloud Dataflow SDK 1.x로 템플릿을 만들려면 버전 1.9.0 이상이 필요합니다.

gcloud 명령줄 도구로 템플릿을 실행하려면 Cloud SDK 버전 138.0.0 이상이 필요합니다.

다음 단계

이 페이지가 도움이 되었나요? 평가를 부탁드립니다.

다음에 대한 의견 보내기...

도움이 필요하시나요? 지원 페이지를 방문하세요.