이 페이지에서는 Dataflow 서비스에서 파이프라인을 실행할 수 있도록 Apache Beam SDK를 설치하는 방법을 설명합니다.
SDK 출시 버전 설치
Apache Beam SDK는 데이터 파이프라인용 오픈소스 프로그래밍 모델입니다. Apache Beam 프로그램으로 이러한 파이프라인을 정의하고 Dataflow와 같은 실행기를 선택하여 파이프라인을 실행할 수 있습니다.
자바
자바용 Apache Beam SDK의 최신 출시 버전은 2.61.0입니다. 이 출시 버전에 포함된 변경사항에 대한 자세한 내용은 출시 발표를 참조하세요.
Maven을 사용하여 자바용 Apache Beam SDK를 가져오려면 Maven Central 저장소에서 출시된 아티팩트 중 하나를 사용합니다.
SDK 아티팩트의 pom.xml
파일에 종속 항목 및 종속 항목 관리 도구를 추가합니다. 자세한 내용은 Dataflow에서 파이프라인 종속 항목 관리를 참고하세요.
Java용 Apache Beam SDK 종속 항목에 관한 자세한 내용은 Apache Beam 문서의 Java용 Apache Beam SDK 종속 항목 및 Java에서 Beam 종속 항목 관리를 참고하세요.
Python
Python용 Apache Beam SDK의 최신 출시 버전은 2.61.0입니다. 이 출시 버전에 포함된 변경사항에 대한 자세한 내용은 출시 발표를 참조하세요.
Python용 Apache Beam SDK를 구하려면 Python 패키지 색인에서 출시된 패키지 중 하나를 사용합니다.
다음 명령어를 실행하여 Python wheel을 설치합니다.
pip install wheel
가상 환경에서 다음 명령어를 실행하여 Python용 Apache Beam SDK의 최신 버전을 설치합니다.
pip install 'apache-beam[gcp]'
연결 상태에 따라 설치하는 데 다소 시간이 걸릴 수 있습니다.
기존 apache-beam 설치를 업그레이드하려면 --upgrade
플래그를 사용합니다.
pip install --upgrade 'apache-beam[gcp]'
Go
Go용 Apache Beam SDK 최신 출시 버전은 2.61.0입니다. 이 출시 버전에 포함된 변경사항에 대한 자세한 내용은 출시 발표를 참조하세요.
최신 버전의 Go용 Apache Beam SDK를 설치하려면 다음 명령어를 실행합니다.
go get -u github.com/apache/beam/sdks/v2/go/pkg/beam
개발 환경 설정
Dataflow를 사용할 수 있도록 Google Cloud 프로젝트 및 개발 환경을 설정하는 방법은 다음 빠른 시작 중 하나를 참고하세요.
- 자바를 사용하여 Dataflow 파이프라인 만들기
- Python을 사용하여 Dataflow 파이프라인 만들기
- Go를 사용하여 Dataflow 파이프라인 만들기
- Dataflow 템플릿을 사용하여 스트리밍 파이프라인 만들기
소스 코드 및 예시
GitHub의 Apache Beam 저장소에서 Apache Beam 소스 코드를 사용할 수 있습니다.
자바
GitHub의 Apache Beam 예시 디렉터리에서 코드 샘플을 제공합니다.
Python
GitHub의 Apache Beam 예시 디렉터리에서 코드 샘플을 제공합니다.
Go
GitHub의 Apache Beam 예시 디렉터리에서 코드 샘플을 제공합니다.
Dataflow SDK 버전 찾기
설치 세부 사항은 사용자 개발 환경에 따라 다릅니다. Maven을 사용하는 경우 여러 버전의 Dataflow SDK를 하나 이상의 로컬 Maven 저장소에 '설치'할 수 있습니다.
자바
DataflowPipelineRunner
또는 BlockingDataflowPipelineRunner
로 실행 시 콘솔 출력을 살펴보면 특정 파이프라인이 실행 중인 Dataflow SDK 버전을 확인할 수 있습니다. Console에는 Dataflow SDK 버전 정보를 포함하는 다음과 같은 메시지가 포함됩니다.
Python
DataflowRunner
로 실행 시 콘솔 출력을 살펴보면 특정 파이프라인이 실행 중인 Dataflow SDK 버전을 확인할 수 있습니다. Console에는 Dataflow SDK 버전 정보를 포함하는 다음과 같은 메시지가 포함됩니다.
Go
DataflowRunner
로 실행 시 콘솔 출력을 살펴보면 특정 파이프라인이 실행 중인 Dataflow SDK 버전을 확인할 수 있습니다. Console에는 Dataflow SDK 버전 정보를 포함하는 다음과 같은 메시지가 포함됩니다.
INFO: Executing pipeline on the Dataflow Service, ... Dataflow SDK version: <version>
다음 단계
- Dataflow는 Google Cloud CLI와 통합됩니다. Dataflow 명령줄 인터페이스 설치에 관한 안내는 Dataflow 명령줄 인터페이스 사용을 참고하세요.
- Dataflow에서 지원하는 Apache Beam 기능을 알아보려면 Apache Beam 기능 행렬을 검토하세요.