WordCount 템플릿은 Cloud Storage에서 텍스트를 읽고, 텍스트 줄을 개별 단어로 토큰화하고, 각 단어의 출현 빈도를 세는 일괄 파이프라인입니다. WordCount에 대한 자세한 내용은 WordCount 파이프라인 예를 참조하세요.
Cloud Storage 버킷이 서비스 경계 외부에 있으면 버킷에 대한 액세스를 허용하는 이그레스 규칙을 만듭니다.
템플릿 매개변수
| 매개변수 | 설명 | 
|---|---|
| inputFile | Cloud Storage 입력 파일 경로입니다. | 
| outputFile | Cloud Storage 출력 파일 경로 및 프리픽스입니다. | 
WordCount 템플릿 실행
콘솔
- Dataflow 템플릿에서 작업 만들기 페이지로 이동합니다. 템플릿에서 작업 만들기로 이동
- 작업 이름 필드에 고유한 작업 이름을 입력합니다.
- (선택사항) 리전 엔드포인트의 드롭다운 메뉴에서 값을 선택합니다. 기본 리전은 us-central1입니다.Dataflow 작업을 실행할 수 있는 리전 목록은 Dataflow 위치를 참조하세요. 
- Dataflow 템플릿 드롭다운 메뉴에서 the WordCount template을 선택합니다.
- 제공된 파라미터 필드에 파라미터 값을 입력합니다.
- 작업 실행을 클릭합니다.
gcloud
셸 또는 터미널에서 템플릿을 실행합니다.
gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Word_Count \
    --region REGION_NAME \
    --parameters \
    inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,output=gs://BUCKET_NAME/output/my_output
다음을 바꿉니다.
- JOB_NAME: 선택한 고유한 작업 이름
- REGION_NAME: Dataflow 작업을 배포할 리전(예:- us-central1)
- BUCKET_NAME: Cloud Storage 버킷 이름
API
REST API를 사용하여 템플릿을 실행하려면 HTTP POST 요청을 전송합니다. API 및 승인 범위에 대한 자세한 내용은 projects.templates.launch를 참조하세요.
POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
    "jobName": "JOB_NAME",
    "parameters": {
       "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
       "output": "gs://BUCKET_NAME/output/my_output"
    },
    "environment": { "zone": "us-central1-f" }
}
다음을 바꿉니다.
- PROJECT_ID: Dataflow 작업을 실행하려는 Google Cloud 프로젝트 ID
- JOB_NAME: 선택한 고유한 작업 이름
- LOCATION: Dataflow 작업을 배포할 리전(예:- us-central1)
- BUCKET_NAME: Cloud Storage 버킷 이름