데이터 파이프라인 만들기

이 빠른 시작에서는 다음을 수행하는 방법을 보여줍니다.

  1. Cloud Data Fusion 인스턴스를 만듭니다.
  2. Cloud Data Fusion 인스턴스와 함께 제공되는 샘플 파이프라인을 배포합니다. 파이프라인은 다음 작업을 수행합니다.
    1. Cloud Storage의 NYT 베스트셀러 데이터가 포함된 JSON 파일 읽기
    2. 파일에서 변환을 실행하여 데이터 파싱 및 정리
    3. 지난 주에 추가된 책 중에서 평점이 가장 높고 가격이 $25 미만인 책을 BigQuery로 로드

시작하기 전에

  1. Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
  2. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  3. Cloud Data Fusion API 사용 설정

    API 사용 설정

  4. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  5. Cloud Data Fusion API 사용 설정

    API 사용 설정

Cloud Data Fusion 인스턴스 만들기

  1. 인스턴스 만들기를 클릭합니다.

    인스턴스로 이동

  2. 인스턴스 이름을 입력합니다.
  3. 인스턴스의 설명을 입력합니다.
  4. 인스턴스를 만들 리전을 입력합니다.
  5. 사용할 Cloud Data Fusion 버전을 선택합니다.
  6. Cloud Data Fusion 버전을 선택합니다.
  7. Cloud Data Fusion 버전 6.2.3 이상의 경우 승인 필드에서 Dataproc에서 Cloud Data Fusion 파이프라인을 실행하는 데 사용할 Dataproc 서비스 계정을 선택합니다. 기본값인 Compute Engine 계정이 미리 선택되어 있습니다.
  8. 만들기를 클릭합니다. 인스턴스 생성 프로세스가 완료되는 데 최대 30분이 걸립니다. Cloud Data Fusion이 인스턴스를 만드는 동안 인스턴스 페이지의 인스턴스 이름 옆에 진행률 휠이 표시됩니다. 완료되면 녹색 체크표시로 바뀌어 이제 인스턴스를 사용할 수 있음을 알립니다.

Cloud Data Fusion을 사용할 때는 Google Cloud 콘솔과 별도의 Cloud Data Fusion 웹 인터페이스를 모두 사용합니다.

  • Google Cloud 콘솔에서 다음을 수행할 수 있습니다.

    • Google Cloud 콘솔 프로젝트 만들기
    • Cloud Data Fusion 인스턴스 생성 및 삭제
    • Cloud Data Fusion 인스턴스 세부정보 보기
  • Cloud Data Fusion 웹 인터페이스에서는 스튜디오 또는 Wrangler와 같은 다양한 페이지를 통해 Cloud Data Fusion 기능을 사용할 수 있습니다.

Cloud Data Fusion 인터페이스를 탐색하려면 다음 단계를 따르세요.

  1. Google Cloud 콘솔에서 인스턴스 페이지를 엽니다.

    인스턴스로 이동

  2. 인스턴스 작업 열에서 인스턴스 보기 링크를 클릭합니다.
  3. Cloud Data Fusion 웹 인터페이스에서 왼쪽 탐색 패널을 사용하여 원하는 페이지로 이동합니다.

샘플 파이프라인 배포

샘플 파이프라인은 재사용 가능한 Cloud Data Fusion 파이프라인, 플러그인, 솔루션을 공유할 수 있는 Cloud Data Fusion 허브를 통해 제공됩니다.

  1. Cloud Data Fusion 웹 인터페이스에서 허브를 클릭합니다.
  2. 왼쪽 패널에서 파이프라인을 클릭합니다.
  3. Cloud Data Fusion 빠른 시작 파이프라인을 클릭합니다.
  4. 만들기를 클릭합니다.
  5. Cloud Data Fusion 빠른 시작 구성 패널에서 마침을 클릭합니다.
  6. 파이프라인 맞춤설정을 클릭합니다.

    파이프라인의 시각적 표현이 스튜디오 페이지에 표시되며, 이는 데이터 통합 파이프라인 개발에 사용되는 그래픽 인터페이스입니다. 사용 가능한 파이프라인 플러그인이 왼쪽에 나열되고 해당 파이프라인이 기본 캔버스 영역에 표시됩니다. 각 파이프라인 노드 위에 포인터를 올려놓고 속성을 클릭하여 파이프라인을 탐색할 수 있습니다. 각 노드의 속성 메뉴를 사용하면 노드와 관련된 객체 및 작업을 볼 수 있습니다.

  7. 오른쪽 상단 메뉴에서 배포를 클릭합니다. 이 단계에서는 파이프라인이 Cloud Data Fusion에 제출됩니다. 이 빠른 시작의 다음 섹션에서 파이프라인을 실행합니다.

파이프라인 배포

파이프라인 보기

배포된 파이프라인은 파이프라인 세부정보 뷰에 표시되며, 여기서 다음 작업을 수행할 수 있습니다.

  • 파이프라인의 구조와 구성 보기
  • 수동으로 파이프라인 실행 또는 일정이나 트리거 설정
  • 실행 시간, 로그, 측정항목을 포함하여 파이프라인 이전 실행에 대한 요약 보기

서비스 계정을 복사합니다.

파이프라인 실행

파이프라인 세부정보 뷰에서 실행을 클릭하여 파이프라인을 실행합니다.

파이프라인 실행

파이프라인을 실행할 때 Cloud Data Fusion은 다음을 수행합니다.

  1. 임시 Dataproc 클러스터 프로비저닝
  2. Apache Spark를 사용하여 클러스터에서 파이프라인 실행
  3. 클러스터를 삭제합니다.

결과 보기

몇 분 후에 파이프라인이 완료됩니다. 파이프라인 상태가 성공으로 바뀌고 각 노드에서 처리된 레코드 수가 표시됩니다.

파이프라인 실행 완료

  1. BigQuery 웹 인터페이스로 이동합니다.
  2. 결과 샘플을 보려면 프로젝트의 DataFusionQuickstart 데이터 세트로 이동하고 top_rated_inexpensive 테이블을 클릭한 후 간단한 쿼리를 실행합니다. 예를 들면 다음과 같습니다.

    SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
    

    PROJECT_ID를 프로젝트 ID로 바꿉니다.

결과 보기

삭제

이 페이지에서 사용한 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 다음 단계를 수행합니다.

  1. 이 빠른 시작에서 파이프라인이 작성한 BigQuery 데이터 세트를 삭제합니다.
  2. Cloud Data Fusion 인스턴스를 삭제합니다.

  3. 선택사항: 프로젝트를 삭제합니다.

  1. Google Cloud 콘솔에서 리소스 관리 페이지로 이동합니다.

    리소스 관리로 이동

  2. 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제를 클릭합니다.
  3. 대화상자에서 프로젝트 ID를 입력한 후 종료를 클릭하여 프로젝트를 삭제합니다.

다음 단계