Cloud Data Fusion 개요

Cloud Data Fusion은 데이터 파이프라인을 신속하게 빌드 및 관리하기 위한 완전 관리형 클라우드 기반 기업 데이터 통합 서비스입니다. Cloud Data Fusion 웹 인터페이스를 사용하면 확장 가능한 데이터 통합 솔루션을 빌드할 수 있습니다. 이를 사용하면 인프라를 관리할 필요 없이 다양한 데이터 소스에 연결하고 데이터를 변환한 후 다양한 대상 시스템으로 전송할 수 있습니다.

Cloud Data Fusion은 오픈소스 프로젝트 CDAP를 지원합니다.

Cloud Data Fusion 시작하기

몇 분 내에 Cloud Data Fusion 탐색을 시작할 수 있습니다.

Cloud Data Fusion 살펴보기

다음 섹션에서는 Cloud Data Fusion의 주요 구성요소를 설명합니다.

테넌트 프로젝트

Cloud Data Fusion 파이프라인을 구축 및 조정하고 파이프라인 메타데이터를 저장하는 데 필요한 일련의 서비스는 테넌시 유닛 내 테넌트 프로젝트에 프로비저닝됩니다. Cloud Data Fusion 인스턴스가 프로비저닝되는 각 고객 프로젝트에 대해 별도의 테넌트 프로젝트가 생성됩니다. 테넌트 프로젝트는 고객 프로젝트의 모든 네트워킹 및 방화벽 구성을 상속합니다.

Cloud Data Fusion: 콘솔

컨트롤 플레인이라고도 하는 Cloud Data Fusion 콘솔은 Cloud Data Fusion 인스턴스 자체(예: 만들기, 삭제, 다시 시작, 업데이트)를 처리하는 API 작업 집합 및 웹 인터페이스입니다.

Cloud Data Fusion: Studio

데이터 영역이라고도 부르는 Cloud Data Fusion Studio는 파이프라인 및 관련 아티팩트의 생성, 실행, 관리를 처리하는 REST API 집합 및 웹 인터페이스 작업입니다.

개념

이 섹션에서는 Cloud Data Fusion의 몇 가지 핵심 개념을 소개합니다.

개념 설명
Cloud Data Fusion 인스턴스
  • Cloud Data Fusion 인스턴스는 Cloud Data Fusion의 고유한 배포입니다. Cloud Data Fusion을 시작하려면 Google Cloud 콘솔을 통해 Cloud Data Fusion 인스턴스를 만듭니다.
  • 단일 Google Cloud 콘솔 프로젝트에서 인스턴스를 여러 개 만들고 Cloud Data Fusion 인스턴스를 만들려는 Google Cloud 리전을 지정할 수 있습니다.
  • 요구사항 및 비용 제약조건에 따라 개발자, 기본 또는 엔터프라이즈 인스턴스를 만들 수 있습니다.
  • 각 Cloud Data Fusion 인스턴스에는 고유하고 독립적인 Cloud Data Fusion 배포가 포함되어 있습니다. 이 배포에는 파이프라인 수명 주기 관리, 조정, 메타데이터 관리를 처리하는 일련의 서비스가 포함되어 있습니다. 이 서비스는 테넌트 프로젝트에서 장기 실행 리소스를 통해 실행됩니다.
네임스페이스 네임스페이스는 Cloud Data Fusion 인스턴스의 애플리케이션, 데이터, 연결된 메타데이터를 논리적으로 그룹화한 것입니다. 네임스페이스는 인스턴스의 파티셔닝이라고 생각할 수 있습니다. 단일 인스턴스에서 하나의 네임스페이스는 다른 네임스페이스와는 별개로 항목의 데이터와 메타데이터를 저장합니다.
파이프라인
  • 파이프라인은 다양한 온프레미스 및 클라우드 데이터 소스에서 데이터를 추출, 변환, 혼합, 집계, 로드하는 데이터 및 제어 흐름을 시각적으로 설계하는 방법입니다.
  • 파이프라인을 빌드하면 데이터 수집, 통합, 마이그레이션과 관련된 문제를 해결하는 데 유용한 복잡한 데이터 처리 워크플로를 만들 수 있습니다. Cloud Data Fusion을 사용하면 니즈에 따라 일괄 파이프라인과 실시간 파이프라인을 모두 빌드할 수 있습니다.
  • 파이프라인은 데이터의 논리적 흐름을 사용하여 데이터 처리 워크플로를 표현하고 Cloud Data Fusion은 실행 환경에서 물리적으로 실행하는 데 필요한 모든 기능을 처리합니다.
파이프라인 노드
  • Cloud Data Fusion 웹 인터페이스의 Studio 페이지에서 파이프라인은 방향성 비순환 그래프(DAG)에 배열된 일련의 노드로 표시되어 단방향 흐름을 형성합니다.
  • 노드는 소스에서 읽기, 데이터 변환 수행, 출력을 싱크에 쓰기 등 파이프라인에서 수행할 수 있는 다양한 작업을 나타냅니다. Cloud Data Fusion 웹 인터페이스에서 소스, 변환, 싱크, 기타 노드를 연결하여 데이터 파이프라인을 개발할 수 있습니다.
플러그인
  • 플러그인은 Cloud Data Fusion의 기능을 확장하는 데 사용할 수 있는 맞춤설정 가능한 모듈입니다.
  • Cloud Data Fusion에서는 소스, 변환, 집계, 싱크, 오류 수집자, 알림 게시자, 작업, 실행 후 작업용 플러그인을 제공합니다.
  • 일반적으로 Cloud Data Fusion 웹 인터페이스의 컨텍스트에서는 플러그인을 노드라고도 합니다.
  • 널리 사용되는 Cloud Data Fusion 플러그인을 검색하고 액세스하려면 Cloud Data Fusion 플러그인을 참조하세요.
허브 Cloud Data Fusion 웹 인터페이스에서 플러그인, 샘플 파이프라인, 기타 통합을 탐색하려면 허브를 클릭합니다. 플러그인의 새 버전이 출시되면 호환되는 모든 인스턴스에서 허브에 표시됩니다. 플러그인이 출시되기 전에 인스턴스가 생성된 경우에도 마찬가지입니다.
파이프라인 미리보기
  • Cloud Data Fusion Studio를 사용하면 데이터 하위 집합에서 미리보기를 사용하여 파이프라인 설계의 정확성을 테스트할 수 있습니다.
  • 미리보기의 파이프라인은 테넌트 프로젝트에서 실행됩니다.
파이프라인 실행
  • Cloud Data Fusion은 파이프라인을 실행하기 위해 임시 실행 환경을 만듭니다.
  • Cloud Data Fusion은 Dataproc을 실행 환경으로 지원합니다.
  • Cloud Data Fusion은 파이프라인 실행 시작 시 고객 프로젝트에 임시 Dataproc 클러스터를 프로비저닝하고 클러스터에서 Spark를 사용하여 파이프라인을 실행한 후 파이프라인 실행이 완료되면 클러스터를 삭제합니다.
  • 또는 Terraform과 같은 기술을 통해 제어된 환경에서 Dataproc 클러스터를 관리할 경우 클러스터를 프로비저닝하지 않도록 Cloud Data Fusion을 구성할 수도 있습니다. 이러한 환경에서는 기존 Dataproc 클러스터를 대상으로 파이프라인을 실행할 수 있습니다.
컴퓨팅 프로필
  • 컴퓨팅 프로필은 파이프라인이 실행되는 방법과 위치를 지정합니다. 프로필은 파이프라인의 실제 실행 환경을 설정 및 삭제하는 데 필요한 모든 정보를 캡슐화합니다.
  • 예를 들어 컴퓨팅 프로필에는 다음이 포함됩니다.
    • 실행 프로비저닝 도구
    • 리소스(메모리 및 CPU)
    • 최소 및 최대 노드 수
    • 기타 값
  • 프로필은 이름으로 식별되며 프로비저닝 도구와 관련 구성이 할당되어야 합니다. 프로필은 Cloud Data Fusion 인스턴스 수준 또는 네임스페이스 수준으로 존재할 수 있습니다.
  • Cloud Data Fusion 기본 컴퓨팅 프로필은 자동 확장입니다.
재사용 가능한 파이프라인
  • Cloud Data Fusion의 재사용 가능한 데이터 파이프라인을 사용하면 다양한 사용 사례와 데이터 세트에 데이터 통합 패턴을 적용할 수 있는 단일 파이프라인을 만들 수 있습니다.
  • 재사용 가능한 파이프라인은 파이프라인 구성의 대부분을 설계 시 하드코딩하는 대신 실행 시 설정하여 관리 효율성을 높입니다.
트리거
  • Cloud Data Fusion은 데이터 파이프라인(다운스트림 파이프라인이라고 함)에서 트리거를 만들어 하나 이상의 서로 다른 파이프라인(업스트림 파이프라인이라고 함)이 완료되었을 때 실행되도록 지원합니다. 다운스트림 파이프라인이 실행되는 시점(예: 업스트림 파이프라인 실행의 성공, 실패, 중지 또는 이들의 조합)을 선택합니다.
  • 트리거는 다음과 같은 경우에 유용합니다.
    • 데이터를 한 번 정리한 다음 여러 다운스트림 파이프라인에서 사용할 수 있도록 합니다.
    • 파이프라인 간에 런타임 인수 및 플러그인 구성과 같은 정보를 공유합니다. 이를 페이로드 구성이라고 합니다.
    • 실행할 때마다 업데이트해야 하는 정적 파이프라인 대신 시간/일/주/월별 데이터를 사용하여 실행할 수 있는 동적 파이프라인 집합이 있습니다.

Cloud Data Fusion 리소스

Cloud Data Fusion 리소스를 살펴보세요.

다음 단계