이 페이지에서는 Dataflow용 파이프라인을 빌드하는 다양한 방법과 각 방법의 장점을 설명합니다.
Google 제공 템플릿
Google은 사전 빌드된 수십 개의 Dataflow 파이프라인을 위한 오픈소스 템플릿을 제공합니다.Google Cloud 콘솔 또는 명령줄에서 이러한 템플릿을 실행할 수 있습니다. 일부 템플릿에서는 사용자 정의 함수 (UDF) 추가를 지원하므로 출력 대상에 데이터를 쓰기 전에 데이터를 변환할 수 있습니다.
시나리오에 맞는 템플릿이 있는 경우 템플릿을 사용하는 것이 좋습니다. 전체 목록은 Google 제공 템플릿을 참고하세요.
작업 빌더
작업 빌더는 코드를 작성하지 않고 Google Cloud 콘솔에서 Dataflow 파이프라인을 빌드하고 실행할 수 있는 시각적 UI입니다. 작업 빌더에서 소스, 싱크, 변환을 선택하고 이를 연결하여 그래프를 형성하여 파이프라인을 만듭니다. 작업 빌더를 사용하면 파이프라인을 YAML 파일로 저장하고 로드할 수도 있습니다.
다음 시나리오에서는 작업 빌더를 사용하는 것이 좋습니다.
- Google에서 제공하는 템플릿이 시나리오와 일치하지 않는 경우 맞춤 파이프라인을 만듭니다.
- 코딩 없이 파이프라인을 빌드합니다.
- 여러 소스 또는 싱크가 있는 파이프라인을 만듭니다.
- 빠른 프로토타입 만들기
자세한 내용은 작업 빌더 UI 개요를 참고하세요.
작업 빌더는 Apache Beam에서 사용할 수 있는 소스 및 싱크의 하위 집합을 지원합니다. 작업 빌더에서 지원되지 않는 템플릿이 필요한 경우 Google 제공 템플릿을 사용하거나 Apache Beam SDK를 사용해 보세요.
Apache Beam SDK
Dataflow 파이프라인은 오픈소스 Apache Beam SDK를 기반으로 빌드됩니다. SDK를 사용하여 파이프라인을 작성하면 워크로드에 Apache Beam의 모든 기능을 사용할 수 있습니다. 파이프라인은 Java, Python 또는 Go로 작성할 수 있습니다.
Google 제공 템플릿이나 작업 빌더를 사용하여 시나리오를 달성할 수 없는 경우 Apache Beam SDK를 사용하는 것이 좋습니다. 예를 들면 다음과 같습니다.
- 전체 Apache Beam 기능 세트가 필요한 더 복잡한 파이프라인
- 재처리 등 지연된 데이터를 처리하기 위한 더 정교한 전략이 필요한 스트리밍 파이프라인
자세한 내용은 Apache Beam을 사용하여 파이프라인 빌드를 참고하세요.
Notebooks
JupyterLab 노트북에서 Apache Beam Python 코드를 실행할 수 있습니다. 이러한 노트북은 최신 데이터 과학 및 머신러닝 프레임워크가 미리 설치된 노트북 VM을 호스팅하는 서비스인 Vertex AI Workbench를 통해 제공됩니다. 노트북을 사용하면 개발 환경을 설정할 필요가 없으며 파이프라인 코드를 빠르게 반복할 수 있습니다. Notebooks는 테스트 환경에서 실행되지만 프로덕션용으로 코드를 내보낼 수 있습니다.
자세한 내용은 Apache Beam 노트북 개발을 참고하세요.