Eclipse에서 Cloud Dataflow 설정

이 페이지에서는 Dataflow 프로젝트를 만들고 Eclipse 내에서 예제 파이프 라인을 실행하는 방법을 설명합니다.

Dataflow Eclipse 플러그인은 Dataflow SDK 배포 버전 2.0.0~2.5.0에서만 작동합니다. Dataflow Eclipse 플러그인은 Apache Beam SDK 배포에서 작동하지 않습니다.

시작하기 전에

  1. Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
  2. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  3. Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.

  4. Cloud Dataflow, Compute Engine, Stackdriver Logging, Cloud Storage, Cloud Storage JSON, BigQuery, Cloud Pub/Sub, Cloud Datastore, and Cloud Resource Manager API를 사용 설정합니다.

    API 사용 설정

  5. Cloud SDK 설치 및 초기화
  6. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  7. Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.

  8. Cloud Dataflow, Compute Engine, Stackdriver Logging, Cloud Storage, Cloud Storage JSON, BigQuery, Cloud Pub/Sub, Cloud Datastore, and Cloud Resource Manager API를 사용 설정합니다.

    API 사용 설정

  9. Cloud SDK 설치 및 초기화
  10. Eclipse IDE 버전 4.7 이상을 설치했는지 확인합니다.
  11. JDK(Java Development Kit) 버전 1.8 이상을 설치했는지 확인합니다.
  12. Cloud Tools for Eclipse 플러그인 최신 버전을 설치했는지 확인합니다.
    1. 아직 설치하지 않았으면 Cloud Tools for Eclipse 빠른 시작에 따라 플러그인을 설치합니다.
    2. 또는 도움말 > 업데이트 확인을 선택하여 플러그인을 최신 버전으로 업데이트합니다.

Eclipse에서 Dataflow 프로젝트 만들기

프로젝트를 만들려면 새 프로젝트 마법사를 사용하여 자신의 애플리케이션의 시작으로 사용할 수 있는 템플릿 애플리케이션을 생성합니다.

애플리케이션이 없으면 WordCount 샘플 앱을 실행하여 이 절차의 나머지 부분을 완료할 수 있습니다.

  1. File(파일) -> New(새 항목) -> Project(프로젝트)를 선택합니다.
  2. Google Cloud Platform 디렉터리에서 Cloud Dataflow Java Project(Cloud Dataflow 자바 프로젝트)를 선택합니다.
  3. 만들고 있는 프로젝트 유형을 선택하는 마법사입니다. General, Eclipse Modeling Framework, EJB, 자바, 자바 EE 디렉터리가 있습니다. App Engine 가변형 자바 프로젝트, App Engine 표준 자바 프로젝트, Dataflow 자바 프로젝트를 만드는 옵션을 보여주는 Google Cloud 디렉터리도 있습니다.
  4. Group ID(그룹 ID)를 입력합니다.
  5. Artifact ID(아티팩트 ID)를 입력합니다.
  6. Project Template(프로젝트 템플릿)을 선택합니다. WordCount 샘플의 경우 Example pipelines(예시 파이프라인)를 선택합니다.
  7. Project Dataflow Version(프로젝트 Dataflow 버전)을 선택합니다. WordCount 샘플의 경우 2.5.0을 선택합니다.
  8. Package(패키지) 이름을 입력합니다. WordCount 샘플의 경우 com.google.cloud.dataflow.examples를 입력합니다.
  9. Dataflow 프로젝트를 만드는 마법사입니다. 그룹 ID, 아티팩트 ID, 프로젝트 템플릿, Cloud Dataflow 버전, 패키지 이름, 작업공간 위치, 이름 템플릿을 입력하는 필드가 제공됩니다. 뒤로 이동, 다음으로 이동, 작업 취소 및 종료 버튼이 있습니다.
  10. 다음을 클릭합니다.

실행 옵션 구성

이제 Set Default Cloud Dataflow Run Options(기본 Cloud Tools for Eclipse 실행 옵션 설정) 대화상자가 표시됩니다.

  1. Google Cloud 프로젝트와 연결된 계정을 선택하거나 새 계정을 추가합니다. 새 계정을 추가하려면 다음 안내를 따르세요.
    1. Account(계정) 드롭다운 메뉴에서 Add a new account…(새 계정 추가…)를 선택합니다.
    2. 로그인 절차를 완료하기 위한 새 브라우저 창이 열립니다.
  2. Google Cloud Platform 프로젝트 ID를 입력하세요.
  3. Cloud Storage 스테이징 위치를 선택하거나 스테이징 위치를 만듭니다. 준비 위치를 만들려면 다음 단계를 따르세요.
    1. Cloud Storage Staging Location(Cloud Storage 스테이징 위치)고유한 이름을 입력합니다. 위치 이름은 버킷 이름과 폴더를 포함해야 합니다. 객체가 지정된 폴더의 Cloud Storage 버킷에 생성됩니다. 버킷 네임스페이스는 전역적이며 전체 공개로 표시되기 때문에 버킷 이름에 민감한 정보를 포함하면 안 됩니다.
    2. 버킷 만들기를 클릭합니다.
    3. Google Cloud 계정, Google Cloud Platform ID, Cloud Storage 스테이징 위치를 입력하는 대화 상자입니다. 만들기 버튼을 사용하면 준비 위치를 만들 수 있습니다. 뒤로 가기, 다음 창으로 가기, 작업 취소, 작업 완료 버튼이 있습니다.
  4. Browse(찾아보기)를 클릭하여 서비스 계정 키로 이동합니다.
  5. 마침을 클릭합니다.

Dataflow 서비스에서 WordCount 예제 파이프라인 실행

Cloud Tools for Eclipse 프로젝트를 작성한 후 Dataflow 서비스에서 실행되는 파이프라인을 작성할 수 있습니다. 예를 들어 WordCount 샘플 파이프라인을 실행할 수 있습니다.

  1. Run(실행) -> Run Configurations(구성 실행)를 선택합니다.
  2. 왼쪽 메뉴에서 Dataflow Pipeline(Dataflow 파이프라인)을 선택합니다.
  3. New Launch Configuration(새 시작 구성)을 클릭합니다.
  4. Dataflow 파이프라인 실행 구성을 선택하는 대화상자입니다. 옵션에는 Apache Tomcat, App Engine 로컬 서버, Dataflow 파이프라인, Eclipse 애플리케이션, Eclipse 데이터 도구 등이 있습니다. 마우스 포인터를 새 시작 구성 버튼에 가져가면 해당 버튼에 대한 새 시작 구성 도움말이 표시됩니다.
  5. Main(기본) 탭을 클릭합니다.
  6. 찾아보기를 클릭하여 Dataflow 프로젝트를 선택합니다.
  7. Search...를 클릭하고 WordCount Main Type(WordCount 기본 유형)을 선택합니다.
  8. Pipeline Arguments(파이프라인 인수) 탭을 클릭합니다.
  9. DataflowRunner 실행자를 선택합니다.
  10. Arguments(인수) 탭을 클릭합니다.
  11. Program arguments(프로그램 인수) 필드에서 output(출력)Cloud Storage Staging Location(Cloud Storage 스테이징 위치)로 설정합니다. 스테이징 위치는 폴더여야 합니다. 버킷의 루트 디렉터리에서 파이프라인 작업을 스테이징할 수 없습니다.
  12. Arguments(인수) 탭이 선택되어 있는 대화상자입니다. Program arguments(프로그램 인수) 필드에서 출력 옵션은 쓰기 가능한 스테이징 위치로 설정됩니다.
  13. 실행을 클릭합니다.
  14. 작업이 완료되면 다른 출력 중에서 Eclipse 콘솔에 다음 줄이 표시됩니다.
    Submitted job: <job_id>

삭제

이 페이지에서 사용한 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 다음 단계를 수행합니다.

  1. Google Cloud Console에서 Cloud Storage 브라우저를 엽니다.
  2. 만든 버킷 옆에 있는 확인란을 선택합니다.
  3. Delete(삭제)를 클릭합니다.
  4. Delete를 클릭하여 버킷과 콘텐츠 영구 삭제 여부를 확인합니다.

다음 과정