Dataproc 워크플로 템플릿 개요

Dataproc WorkflowTemplates API는 워크플로를 관리하고 실행하는 데 유연하고 사용이 간편한 메커니즘을 제공합니다. 워크플로 템플릿은 재사용 가능한 워크플로 구성입니다. 작업 그래프를 해당 작업을 실행할 위치에 관한 정보와 함께 정의합니다.

핵심 사항:

  • 워크플로 템플릿을 인스턴스화하면 워크플로가 시작됩니다. 워크플로는 클러스터에서 작업의 DAG(Directed Acyclic Graph)를 실행하는 작업입니다. 관리형 클러스터를 사용하는 워크플로는 클러스터를 만들고, 작업을 실행하고, 작업이 완료되면 클러스터를 삭제합니다.
  • 클러스터 선택기를 사용하는 워크플로는 선택된 기존 클러스터에서 작업을 실행합니다.
  • 워크플로는 복잡한 작업 흐름에 이상적입니다. 작업의 종속 항목이 성공적으로 완료된 후에만 작업이 시작되도록 작업 종속 항목을 만들 수 있습니다.
  • 워크플로 템플릿을 만든다고 해서 Dataproc 클러스터가 만들어지거나 작업이 제출되는 것은 아닙니다. 워크플로와 연관된 클러스터 및 작업은 워크플로 템플릿이 인스턴스화될 때 만들어집니다.

워크플로 템플릿 종류

관리형 클러스터

워크플로 템플릿은 관리형 클러스터를 지정할 수 있습니다. 워크플로는 이 '임시' 클러스터를 만들어 워크플로 작업을 실행하고, 워크플로가 완료되면 이 클러스터를 삭제합니다.

클러스터 선택기

워크플로 템플릿은 이전에 하나 이상의 클러스터에 적용된 하나 이상의 사용자 라벨을 지정함으로써 워크플로를 실행할 기존 클러스터를 지정할 수 있습니다. 워크플로는 지정된 모든 라벨과 일치하는 클러스터에서 실행됩니다. 여러 개의 클러스터가 라벨과 일치하는 경우, Dataproc은 모든 워크플로 작업을 실행할 수 있는 YARN 사용 가능 메모리가 가장 많은 클러스터를 선택합니다. 워크플로가 끝나면 선택된 클러스터가 삭제됩니다. 자세한 내용은 워크플로에 클러스터 선택기 사용을 참조하세요.

매개변수화됨

워크플로 템플릿을 서로 다른 값으로 여러 번 실행할 경우 워크플로 템플릿을 매번 편집할 필요가 없습니다. 템플릿에서 매개변수를 정의한 후에 각각 실행할 때마다 매개변수에 다른 값을 전달하면 됩니다. 자세한 내용은 워크플로 템플릿의 매개변수화를 참조하세요.

인라인

워크플로 템플릿 YAML 파일과 함께 gcloud 명령어를 사용하거나 Dataproc InstantiateInline API를 호출하여 워크플로를 인라인으로 인스턴스화할 수 있습니다(인라인 Dataproc 워크플로 사용 참조). 인라인 워크플로는 워크플로 템플릿 리소스를 만들거나 수정하지 않습니다.

워크플로 템플릿 사용 사례

  • 반복적 작업의 자동화. 자주 사용되는 클러스터 구성과 작업을 워크플로가 캡슐화합니다.

  • Transactional, Fire, Forget API 상호작용 모델. 워크플로 템플릿은 클러스터 만들기, 작업 제출, 폴링, 클러스터 삭제 등을 비롯한 일반적인 흐름과 관련된 단계를 대체합니다. 단일 토큰을 사용하여 클러스터 만들기부터 삭제까지의 진행 상황을 추적하며 오류 처리 및 복구를 자동화합니다. 또한 Dataproc을 Cloud Functions 및 Cloud Composer와 같은 다른 도구와의 통합을 간소화합니다.

  • 임시 및 장기 클러스터 지원. Apache Hadoop을 실행할 때 흔히 겪는 어려움은 클러스터를 미세 조정하고 크기를 알맞게 조정하는 것입니다. 임시(관리형) 클러스터는 단일 작업 부하를 실행하므로 더 쉽게 구성될 수 있습니다. 클러스터 선택기를 장기 클러스터와 함께 사용하면 클러스터를 만들고 삭제하는 데 드는 상각비용 없이 같은 작업 부하를 반복적으로 실행할 수 있습니다.

  • 세분화된 IAM 보안. Dataproc 클러스터를 만들고 작업을 제출하려면 전체 IAM 권한이 필요하거나 전혀 필요하지 않습니다. 워크플로 템플릿은 템플릿별 workflowTemplates.instantiate 권한을 사용하며 클러스터 또는 작업 권한에 종속되지 않습니다.