Google 제공 템플릿으로 시작하기

Google은 오픈소스 Dataflow 템플릿 세트를 제공합니다. 템플릿에 대한 일반 정보는 개요 페이지를 참조하세요. 시작하려면 WordCount 템플릿을 사용합니다. Google에서 제공하는 다른 템플릿을 살펴보세요.

스트리밍 템플릿 - 지속적인 데이터 처리에 사용되는 템플릿입니다.

일괄 템플릿 - 데이터 일괄 처리에 사용되는 템플릿입니다.

유틸리티 템플릿:

단어 수

WordCount 템플릿은 Cloud Storage에서 텍스트를 읽고, 텍스트 줄을 개별 단어로 토큰화하고, 각 단어의 출현 빈도를 세는 일괄 파이프라인입니다. WordCount에 대한 자세한 내용은 WordCount 파이프라인 예를 참조하세요.

템플릿 매개변수

매개변수 설명
inputFile Cloud Storage 입력 파일 경로입니다.
output Cloud Storage 출력 파일 경로 및 프리픽스입니다.

WordCount 템플릿 실행

콘솔

Google Cloud Console을 사용하여 실행합니다.
  1. Cloud Console에서 Dataflow 페이지로 이동합니다.
  2. Dataflow 페이지로 이동
  3. 템플릿에서 작업 만들기를 클릭합니다.
  4. Cloud Console 템플릿에서 작업 만들기 버튼
  5. Cloud Dataflow 템플릿 드롭다운 메뉴에서 the WordCount template을 선택합니다.
  6. 작업 이름 필드에 작업 이름을 입력합니다.
  7. 제공된 매개변수 필드에 매개변수 값을 입력합니다.
  8. 작업 실행을 클릭합니다.

gcloud

gcloud 명령줄 도구를 사용하여 실행합니다.

이 템플릿을 실행할 때는 템플릿의 Cloud Storage 경로가 필요합니다.

gs://dataflow-templates/latest/Word_Count

다음 명령어를 실행합니다.

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Word_Count \
    --parameters \
    inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,\
    output=gs://BUCKET_NAME/output/my_output

다음을 바꿉니다.

  • JOB_NAME: 선택한 작업 이름
  • BUCKET_NAME: Cloud Storage 버킷 이름입니다.

API

REST API를 사용하여 실행합니다.

이 템플릿을 실행할 때는 템플릿의 Cloud Storage 경로가 필요합니다.

gs://dataflow-templates/latest/Word_Count

REST API 요청으로 이 템플릿을 실행하려면 프로젝트 ID와 함께 HTTP POST 요청을 보냅니다. 이 요청에는 승인이 필요합니다.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
    "jobName": "JOB_NAME",
    "parameters": {
       "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
       "output": "gs://BUCKET_NAME/output/my_output"
    },
    "environment": { "zone": "us-central1-f" }
}

다음을 바꿉니다.

  • PROJECT_ID: 프로젝트 ID
  • JOB_NAME: 선택한 작업 이름
  • BUCKET_NAME: Cloud Storage 버킷 이름입니다.