작업 빌더를 사용하여 파이프라인 실행
이 빠른 시작에서는 Dataflow 작업 빌더를 사용하여 Dataflow 작업을 실행하는 방법을 보여줍니다. 작업 빌더는 코드를 작성하지 않고 Google Cloud 콘솔에서 Dataflow 파이프라인을 빌드하고 실행하기 위한 시각적 UI입니다.
이 빠른 시작에서는 예시 파이프라인을 작업 빌더에 로드하고 작업을 실행한 후 작업에서 출력이 생성되었는지 확인합니다.
시작하기 전에
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, and Resource Manager APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, and Resource Manager APIs.
- Cloud Storage 버킷을 만듭니다.
- In the Google Cloud console, go to the Cloud Storage Buckets page.
- Click Create bucket.
- On the Create a bucket page, enter your bucket information. To go to the next
step, click Continue.
- For Name your bucket, enter a unique bucket name. Don't include sensitive information in the bucket name, because the bucket namespace is global and publicly visible.
-
For Choose where to store your data, do the following:
- Select a Location type option.
- Select a Location option.
- For Choose a default storage class for your data, select the following: Standard.
- For Choose how to control access to objects, select an Access control option.
- For Advanced settings (optional), specify an encryption method, a retention policy, or bucket labels.
- Click Create.
빠른 시작 단계를 완료하려면 사용자 계정에 Dataflow 관리자 역할 및 서비스 계정 사용자 역할이 있어야 합니다. Compute Engine 기본 서비스 계정에는 Dataflow 작업자 역할이 있어야 합니다. Google Cloud 콘솔에서 필요한 역할을 추가하려면 다음 안내를 따르세요.
- IAM 페이지로 이동합니다.
IAM으로 이 - 프로젝트를 선택합니다.
- 사용자 계정이 포함된 행에서 주 구성원 수정을 클릭합니다.
- 다른 역할 추가를 클릭하고 드롭다운 목록에서 Dataflow 관리자를 선택합니다.
- 다른 역할 추가를 클릭하고 드롭다운 목록에서 서비스 계정 사용자를 선택합니다.
- 저장을 클릭합니다.
- Compute Engine 기본 서비스 계정이 포함된 행에서 주 구성원 수정을 클릭합니다.
- 다른 역할 추가를 클릭하고 드롭다운 목록에서 Dataflow 작업자를 선택합니다.
- 다른 역할 추가를 클릭하고 드롭다운 목록에서 저장소 객체 관리자를 선택합니다.
저장을 클릭합니다.
역할 부여에 대한 상세 설명은 콘솔을 사용하여 IAM 역할 부여를 참조하세요.
- IAM 페이지로 이동합니다.
- 기본적으로 각각의 새 프로젝트는 기본 네트워크로 시작합니다.
프로젝트에 대한 기본 네트워크가 사용 중지되었거나 삭제된 경우 프로젝트에 사용자 계정에 Compute Network 사용자 역할(
roles/compute.networkUser
)이 있는 네트워크가 있어야 합니다.
예시 파이프라인 로드
이 단계에서는 셰익스피어의 리어왕에 나온 단어 수를 집계하는 예시 파이프라인을 로드합니다.
Google Cloud 콘솔에서 작업 페이지로 이동합니다.
템플릿에서 작업 만들기를 클릭합니다.
작업 빌더를 클릭합니다.
로드를 클릭합니다.
단어 수를 클릭합니다. 작업 빌더가 파이프라인의 그래픽 표현으로 채워집니다.
각 파이프라인 단계에서 작업 빌더는 해당 단계의 구성 파라미터를 지정하는 카드를 표시합니다. 예를 들어 첫 번째 단계는 Cloud Storage에서 텍스트 파일을 읽습니다. 소스 데이터의 위치는 텍스트 위치 상자에 자동 입력됩니다.
출력 위치 설정
이 단계에서는 파이프라인이 출력을 쓰는 Cloud Storage 버킷을 지정합니다.
새 싱크라는 제목의 카드를 찾습니다. 스크롤해야 할 수도 있습니다.
텍스트 위치 상자에서 찾아보기를 클릭합니다.
시작하기 전에에서 만든 Cloud Storage 버킷의 이름을 선택합니다.
하위 리소스 보기를 클릭합니다.
파일 이름 상자에
words
를 입력합니다.선택을 클릭합니다.
작업 실행
작업 실행을 클릭합니다. 작업 빌더는 Dataflow 작업을 만든 후 작업 그래프로 이동합니다. 작업이 시작되면 작업 그래프가 작업 빌더에 표시된 것과 유사한 파이프라인을 그래픽으로 표시합니다. 파이프라인의 각 단계가 실행될 때 작업 그래프에서 상태가 업데이트됩니다.
작업 정보 패널에는 작업의 전반적인 상태가 표시됩니다. 작업이 성공적으로 완료되면 작업 상태 필드가 Succeeded
로 업데이트됩니다.
작업 출력 검토
작업이 완료되면 다음 단계를 수행하여 파이프라인의 출력을 확인합니다.
Google Cloud 콘솔에서 Cloud Storage 버킷 페이지로 이동합니다.
버킷 목록에서 시작하기 전에에서 만든 버킷의 이름을 클릭합니다.
이름이
words-00000-of-00001
인 파일을 클릭합니다.객체 세부정보 페이지에서 인증된 URL을 클릭하여 파이프라인 출력을 확인합니다.
출력은 다음과 비슷하게 표시됩니다.
brother: 20
deeper: 1
wrinkles: 1
'alack: 1
territory: 1
dismiss'd: 1
[....]
삭제
이 페이지에서 사용한 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 다음 단계를 수행합니다.
프로젝트 삭제
비용이 청구되지 않도록 하는 가장 쉬운 방법은 빠른 시작에서 만든 Google Cloud 프로젝트를 삭제하는 것입니다.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
개별 리소스 삭제
이 빠른 시작에서 사용한 Google Cloud 프로젝트를 유지하려면 Cloud Storage 버킷을 삭제합니다.
- In the Google Cloud console, go to the Cloud Storage Buckets page.
- Click the checkbox for the bucket that you want to delete.
- To delete the bucket, click Delete, and then follow the instructions.