Apache Beam SDK 설치

이 페이지에서는 Dataflow 서비스에서 파이프라인을 실행할 수 있도록 Apache Beam SDK를 설치하는 방법을 설명합니다.

SDK 출시 버전 설치

Apache Beam SDK는 데이터 파이프라인용 오픈소스 프로그래밍 모델입니다. Apache Beam 프로그램으로 이러한 파이프라인을 정의하고 Dataflow와 같은 실행기를 선택하여 파이프라인을 실행할 수 있습니다. Dataflow를 사용할 수 있도록 Google Cloud 프로젝트 및 개발 환경을 설정하는 방법은 빠른 시작을 참조하세요.

자바

자바용 Apache Beam SDK의 최신 출시 버전은 2.34.0입니다. 이 출시 버전에 포함된 변경사항에 대한 자세한 내용은 출시 발표를 참조하세요.

Maven을 사용하여 자바용 Apache Beam SDK를 구하려면 Maven Central 저장소에서 출시된 아티팩트 중 하나를 사용합니다.

다음과 같이 SDK 아티팩트의 pom.xml 파일에 종속 항목을 추가합니다.

<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-core</artifactId>
  <version>2.34.0</version>
</dependency>
<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-runners-google-cloud-dataflow-java</artifactId>
  <version>2.34.0</version>
</dependency>
<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-io-google-cloud-platform</artifactId>
  <version>2.34.0</version>
</dependency>

Python

Python용 Apache Beam SDK의 최신 출시 버전은 2.34.0입니다. 이 출시 버전에 포함된 변경사항에 대한 자세한 내용은 출시 발표를 참조하세요.

Python용 Apache Beam SDK를 구하려면 Python 패키지 색인에서 출시된 패키지 중 하나를 사용합니다.

다음 명령어를 실행하여 Python wheel을 설치합니다.

pip install wheel

가상 환경에서 다음 명령어를 실행하여 Python용 Apache Beam SDK의 최신 버전을 설치합니다.

pip install 'apache-beam[gcp]'

연결에 따라 설치하는 데 다소 시간이 걸릴 수 있습니다.

기존 apache-beam 설치를 업그레이드하려면 --upgrade 플래그를 사용합니다.

pip install --upgrade 'apache-beam[gcp]'

소스 코드 및 예시

GitHub의 Apache Beam 저장소에서 Apache Beam 소스 코드를 사용할 수 있습니다.

자바

GitHub의 Apache Beam 저장소에서 코드 샘플을 사용할 수 있습니다.

Python

GitHub의 Apache Beam 예시 저장소에서 코드 샘플을 사용할 수 있습니다.

추가 도구

Dataflow는 Cloud SDK의 gcloud 명령줄 도구와 통합됩니다. Dataflow 명령줄 인터페이스 설치에 대한 안내는 Dataflow 명령줄 인터페이스 사용을 참조하세요.