Dataflow는 오픈소스 Apache Beam 프로젝트를 기반으로 빌드되었습니다. Apache Beam SDK를 사용하여 Dataflow용 파이프라인을 빌드할 수 있습니다. 이 문서에는 Apache Beam 프로그래밍을 시작하기 위한 몇 가지 리소스가 나와 있습니다.
시작하기
Apache Beam SDK 설치: Dataflow에서 파이프라인을 실행할 수 있도록 Apache Beam SDK를 설치하는 방법을 보여줍니다.
Java 파이프라인 만들기: Apache Beam Java SDK로 파이프라인을 만들고 Dataflow에서 파이프라인을 실행하는 방법을 보여줍니다.
Python 파이프라인 만들기: Apache Beam Python SDK로 파이프라인을 만들고 Dataflow에서 파이프라인을 실행하는 방법을 보여줍니다.
Go 파이프라인 만들기: Apache Beam Go SDK로 파이프라인을 만들고 Dataflow에서 파이프라인을 실행하는 방법을 보여줍니다.
Apache Beam 학습
Apache Beam 웹사이트의 다음 페이지를 사용하여 Apache Beam 프로그래밍에 대해 배울 수 있습니다.
Apache Beam 프로그래밍 가이드: Apache Beam SDK 클래스를 사용하여 파이프라인을 빌드하고 테스트하는 방법을 안내합니다.
Apache Beam 둘러보기: Apache Beam에 익숙해지는 데 사용할 수 있는 학습 가이드입니다. 학습 단위에는 실행 및 수정할 수 있는 코드 예시가 함께 제공됩니다.
Apache Beam 플레이그라운드: 환경에 Apache Beam을 설치하지 않고도 Apache Beam 변환과 예시를 사용해 볼 수 있는 대화형 환경입니다.
파이프라인 만들기: Apache Beam SDK의 클래스 사용 방식과 파이프라인을 빌드하는 데 필요한 단계를 설명합니다.
파이프라인 개발
파이프라인 계획: 코드 개발을 시작하기 전에 파이프라인을 계획하는 방법을 알아봅니다.
파이프라인 개발 및 테스트: Dataflow 파이프라인을 개발하고 테스트하기 위한 권장사항을 알아봅니다.
스트리밍 파이프라인: 창, 트리거, 워터마크 등 스트리밍 파이프라인의 중요한 설계 고려사항을 알아봅니다.
코드 예시
Apache Beam GitHub의 다음 예시를 사용하여 스트리밍 파이프라인을 빌드할 수 있습니다.
- 단어 추출 스트리밍(Java)
- 단어 수 스트리밍(Python)
streaming_wordcap
(Go)