데이터 파이프라인 만들기
이 빠른 시작에서는 다음을 수행하는 방법을 보여줍니다.
- Cloud Data Fusion 인스턴스를 만듭니다.
- Cloud Data Fusion 인스턴스와 함께 제공되는 샘플 파이프라인을 배포합니다. 파이프라인은 다음 작업을 수행합니다.
- Cloud Storage의 NYT 베스트셀러 데이터가 포함된 JSON 파일 읽기
- 파일에서 변환을 실행하여 데이터 파싱 및 정리
- 지난 주에 추가된 책 중에서 평점이 가장 높고 가격이 $25 미만인 책을 BigQuery로 로드
시작하기 전에
- Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
-
Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.
-
Cloud Data Fusion API 사용 설정
-
Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.
-
Cloud Data Fusion API 사용 설정
Cloud Data Fusion 인스턴스 만들기
- 인스턴스 만들기를 클릭합니다.
- 인스턴스 이름을 입력합니다.
- 인스턴스의 설명을 입력합니다.
- 인스턴스를 만들 리전을 입력합니다.
- 사용할 Cloud Data Fusion 버전을 선택합니다.
- Cloud Data Fusion 버전을 선택합니다.
- Cloud Data Fusion 버전 6.2.3 이상의 경우 승인 필드에서 Dataproc에서 Cloud Data Fusion 파이프라인을 실행하는 데 사용할 Dataproc 서비스 계정을 선택합니다. 기본값인 Compute Engine 계정이 미리 선택되어 있습니다.
- 만들기를 클릭합니다. 인스턴스 생성 프로세스가 완료되는 데 최대 30분이 걸립니다. Cloud Data Fusion이 인스턴스를 만드는 동안 인스턴스 페이지의 인스턴스 이름 옆에 진행률 휠이 표시됩니다. 완료되면 녹색 체크표시로 바뀌어 이제 인스턴스를 사용할 수 있음을 알립니다.
Cloud Data Fusion 웹 인터페이스 탐색
Cloud Data Fusion을 사용할 때는 Google Cloud 콘솔과 별도의 Cloud Data Fusion 웹 인터페이스를 모두 사용합니다.
Google Cloud 콘솔에서 다음을 수행할 수 있습니다.
- Google Cloud 콘솔 프로젝트 만들기
- Cloud Data Fusion 인스턴스 생성 및 삭제
- Cloud Data Fusion 인스턴스 세부정보 보기
Cloud Data Fusion 웹 인터페이스에서는 스튜디오 또는 Wrangler와 같은 다양한 페이지를 통해 Cloud Data Fusion 기능을 사용할 수 있습니다.
Cloud Data Fusion 인터페이스를 탐색하려면 다음 단계를 따르세요.
- Google Cloud 콘솔에서 인스턴스 페이지를 엽니다.
- 인스턴스 작업 열에서 인스턴스 보기 링크를 클릭합니다.
- Cloud Data Fusion 웹 인터페이스에서 왼쪽 탐색 패널을 사용하여 원하는 페이지로 이동합니다.
샘플 파이프라인 배포
샘플 파이프라인은 재사용 가능한 Cloud Data Fusion 파이프라인, 플러그인, 솔루션을 공유할 수 있는 Cloud Data Fusion 허브를 통해 제공됩니다.
- Cloud Data Fusion 웹 인터페이스에서 허브를 클릭합니다.
- 왼쪽 패널에서 파이프라인을 클릭합니다.
- Cloud Data Fusion 빠른 시작 파이프라인을 클릭합니다.
- 만들기를 클릭합니다.
- Cloud Data Fusion 빠른 시작 구성 패널에서 마침을 클릭합니다.
- 파이프라인 맞춤설정을 클릭합니다. 파이프라인의 시각적 표현이 스튜디오 페이지에 표시되며, 이는 데이터 통합 파이프라인 개발에 사용되는 그래픽 인터페이스입니다. 사용 가능한 파이프라인 플러그인이 왼쪽에 나열되고 해당 파이프라인이 기본 캔버스 영역에 표시됩니다. 각 파이프라인 노드 위에 포인터를 올려놓고 속성을 클릭하여 파이프라인을 탐색할 수 있습니다. 각 노드의 속성 메뉴를 사용하면 노드와 관련된 객체 및 작업을 볼 수 있습니다.
- 오른쪽 상단 메뉴에서 배포를 클릭합니다. 이 단계에서는 파이프라인이 Cloud Data Fusion에 제출됩니다. 이 빠른 시작의 다음 섹션에서 파이프라인을 실행합니다.

파이프라인 보기
배포된 파이프라인은 파이프라인 세부정보 뷰에 표시되며, 여기서 다음 작업을 수행할 수 있습니다.
- 파이프라인의 구조와 구성 보기
- 수동으로 파이프라인 실행 또는 일정이나 트리거 설정
- 실행 시간, 로그, 측정항목을 포함한 파이프라인 이전 실행에 대한 요약 보기

파이프라인 실행
파이프라인 세부정보 뷰에서 실행을 클릭하여 파이프라인을 실행합니다.

파이프라인을 실행할 때 Cloud Data Fusion은 다음을 수행합니다.
- 임시 Dataproc 클러스터 프로비저닝
- Apache Spark를 사용하여 클러스터에서 파이프라인 실행
- 클러스터를 삭제합니다.
결과 보기
몇 분 후에 파이프라인이 완료됩니다. 파이프라인 상태가 성공으로 바뀌고 각 노드에서 처리된 레코드 수가 표시됩니다.

- BigQuery 웹 인터페이스로 이동합니다.
결과 샘플을 보려면 프로젝트의
DataFusionQuickstart
데이터 세트로 이동하고top_rated_inexpensive
테이블을 클릭한 후SELECT * FROM
과 같은 간단한 쿼리를 실행합니다.<var>PROJECT_ID<var>.GCPQuickStart.top_rated_inexpensive
LIMIT 10PROJECT_ID를 프로젝트 ID로 바꿉니다.

삭제
이 페이지에서 사용한 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 다음 단계를 수행합니다.
- 이 빠른 시작에서 파이프라인이 작성한 BigQuery 데이터 세트를 삭제합니다.
선택사항: 프로젝트 삭제
- Google Cloud 콘솔에서 리소스 관리 페이지로 이동합니다.
- 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제를 클릭합니다.
- 대화상자에서 프로젝트 ID를 입력한 후 종료를 클릭하여 프로젝트를 삭제합니다.