Google 제공 템플릿으로 시작하기

Google은 오픈소스 Cloud Dataflow 템플릿 모음을 제공합니다. 템플릿의 일반 정보는 개요 페이지를 참조하세요. 시작하려면 아래 섹션에 설명된 WordCount 템플릿을 사용합니다. Google에서 제공하는 다른 템플릿을 살펴보세요.

스트리밍 템플릿 - 지속적인 데이터 처리에 사용되는 템플릿입니다.

일괄 템플릿 - 데이터 일괄 처리에 사용되는 템플릿입니다.

유틸리티 템플릿:

WordCount

WordCount 템플릿은 Cloud Storage에서 텍스트를 읽고, 텍스트 줄을 개별 단어로 토큰화하고, 각 단어의 출현 빈도를 세는 일괄 파이프라인입니다. WordCount에 대한 자세한 내용은 WordCount 파이프라인 예를 참조하세요.

템플릿 매개변수

매개변수 설명
inputFile Cloud Storage 입력 파일 경로입니다.
output Cloud Storage 출력 파일 경로 및 프리픽스입니다.

WordCount 템플릿 실행

콘솔

Google Cloud Platform Console에서 실행
  1. GCP Console에서 Cloud Dataflow 페이지로 이동합니다.
  2. Cloud Dataflow 페이지로 이동
  3. 템플릿에서 작업 만들기를 클릭합니다.
  4. 템플릿에서 Cloud Platform Console 생성 작업 버튼
  5. Cloud Dataflow 템플릿 드롭다운 메뉴에서 WordCount 템플릿을 선택합니다.
  6. 작업 이름 필드에 작업 이름을 입력합니다. 작업 이름이 유효하려면 정규 표현식 [a-z]([-a-z0-9]{0,38}[a-z0-9])?와 일치해야 합니다.
  7. 제공된 매개변수 필드에 매개변수 값을 입력합니다.
  8. 작업 실행을 클릭합니다.

GCLOUD

gcloud 명령줄 도구에서 실행

참고: gcloud 명령줄 도구를 사용하여 템플릿을 실행하려면 Cloud SDK 버전 138.0.0 이상이 있어야 합니다.

이 템플릿을 실행할 때에는 다음과 같이 템플릿에 대한 Cloud Storage 경로가 필요합니다.

gs://dataflow-templates/latest/Word_Count

이 예에서 다음 값을 바꿔야 합니다.

  • YOUR_PROJECT_ID를 프로젝트 ID로 바꿉니다.
  • JOB_NAME을 원하는 작업 이름으로 바꿉니다. 작업 이름이 유효하려면 정규 표현식 [a-z]([-a-z0-9]{0,38}[a-z0-9])?와 일치해야 합니다.
  • YOUR_BUCKET_NAME을 Cloud Storage 버킷 이름으로 바꿉니다.
gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Word_Count \
    --parameters \
inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,\
output=gs://YOUR_BUCKET_NAME/output/my_output

API

REST API에서 실행

이 템플릿을 실행할 때에는 다음과 같이 템플릿에 대한 Cloud Storage 경로가 필요합니다.

gs://dataflow-templates/latest/Word_Count

REST API 요청으로 이 템플릿을 실행하려면 프로젝트 ID와 함께 HTTP POST 요청을 보냅니다. 이 요청에는 승인이 필요합니다.

이 예에서 다음 값을 바꿔야 합니다.

  • YOUR_PROJECT_ID를 프로젝트 ID로 바꿉니다.
  • JOB_NAME을 원하는 작업 이름으로 바꿉니다. 작업 이름이 유효하려면 정규 표현식 [a-z]([-a-z0-9]{0,38}[a-z0-9])?와 일치해야 합니다.
  • YOUR_BUCKET_NAME을 Cloud Storage 버킷 이름으로 바꿉니다.
POST https://dataflow.googleapis.com/v1b3/projects/YOUR_PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
    "jobName": "JOB_NAME",
    "parameters": {
       "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
       "output": "gs://YOUR_BUCKET_NAME/output/my_output"
    },
    "environment": { "zone": "us-central1-f" }
}
이 페이지가 도움이 되었나요? 평가를 부탁드립니다.

다음에 대한 의견 보내기...

도움이 필요하시나요? 지원 페이지를 방문하세요.