Apache Beam SDK 설치

이 페이지에서는 Dataflow 서비스에서 파이프라인을 실행할 수 있도록 Apache Beam SDK를 설치하는 방법을 설명합니다.

SDK 출시 버전 설치

Apache Beam SDK는 데이터 파이프라인용 오픈소스 프로그래밍 모델입니다. Apache Beam 프로그램으로 이러한 파이프라인을 정의하고 Dataflow와 같은 실행기를 선택하여 파이프라인을 실행할 수 있습니다. Dataflow를 사용할 수 있도록 Google Cloud 프로젝트 및 개발 환경을 설정하는 방법은 빠른 시작을 참조하세요.

Java

자바용 Apache Beam SDK의 최신 출시 버전은 2.46.0입니다. 이 출시 버전에 포함된 변경사항에 대한 자세한 내용은 출시 발표를 참조하세요.

Maven을 사용하여 자바용 Apache Beam SDK를 구하려면 Maven Central 저장소에서 출시된 아티팩트 중 하나를 사용합니다.

다음과 같이 SDK 아티팩트의 pom.xml 파일에 종속 항목을 추가합니다.

<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-core</artifactId>
  <version>2.46.0</version>
</dependency>
<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-runners-google-cloud-dataflow-java</artifactId>
  <version>2.46.0</version>
</dependency>
<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-io-google-cloud-platform</artifactId>
  <version>2.46.0</version>
</dependency>

Python

Python용 Apache Beam SDK의 최신 출시 버전은 2.46.0입니다. 이 출시 버전에 포함된 변경사항에 대한 자세한 내용은 출시 발표를 참조하세요.

Python용 Apache Beam SDK를 구하려면 Python 패키지 색인에서 출시된 패키지 중 하나를 사용합니다.

다음 명령어를 실행하여 Python wheel을 설치합니다.

pip install wheel

가상 환경에서 다음 명령어를 실행하여 Python용 Apache Beam SDK의 최신 버전을 설치합니다.

pip install 'apache-beam[gcp]'

연결에 따라 설치하는 데 다소 시간이 걸릴 수 있습니다.

기존 apache-beam 설치를 업그레이드하려면 --upgrade 플래그를 사용합니다.

pip install --upgrade 'apache-beam[gcp]'

Go

Go용 Apache Beam SDK 최신 출시 버전은 2.46.0입니다. 이 출시 버전에 포함된 변경사항에 대한 자세한 내용은 출시 발표를 참조하세요.

최신 버전의 Go용 Apache Beam SDK를 설치하려면 다음 명령어를 실행합니다.

go get -u github.com/apache/beam/sdks/v2/go/pkg/beam

소스 코드 및 예시

GitHub의 Apache Beam 저장소에서 Apache Beam 소스 코드를 사용할 수 있습니다.

자바

GitHub의 Apache Beam 예시 디렉터리에서 코드 샘플을 제공합니다.

Python

GitHub의 Apache Beam 예시 디렉터리에서 코드 샘플을 제공합니다.

Go

GitHub의 Apache Beam 예시 디렉터리에서 코드 샘플을 제공합니다.

Dataflow SDK 버전 찾기

설치 세부 사항은 사용자 개발 환경에 따라 다릅니다. Maven을 사용하는 경우 여러 버전의 Dataflow SDK를 하나 이상의 로컬 Maven 저장소에 '설치'할 수 있습니다.

자바

DataflowPipelineRunner 또는 BlockingDataflowPipelineRunner로 실행 시 콘솔 출력을 살펴보면 특정 파이프라인이 실행 중인 Dataflow SDK 버전을 확인할 수 있습니다. Console에는 Dataflow SDK 버전 정보를 포함하는 다음과 같은 메시지가 포함됩니다.

Python

DataflowRunner로 실행 시 콘솔 출력을 살펴보면 특정 파이프라인이 실행 중인 Dataflow SDK 버전을 확인할 수 있습니다. Console에는 Dataflow SDK 버전 정보를 포함하는 다음과 같은 메시지가 포함됩니다.

Go

DataflowRunner로 실행 시 콘솔 출력을 살펴보면 특정 파이프라인이 실행 중인 Dataflow SDK 버전을 확인할 수 있습니다. Console에는 Dataflow SDK 버전 정보를 포함하는 다음과 같은 메시지가 포함됩니다.

  INFO: Executing pipeline on the Dataflow Service, ...
  Dataflow SDK version: <version>

추가 도구

Dataflow는 Google Cloud CLI의 Google Cloud CLI와 통합됩니다. Dataflow 명령줄 인터페이스 설치는 Dataflow 명령줄 인터페이스 사용을 참조하세요.