이 페이지는 Cloud Translation API를 통해 번역되었습니다.

Cloud Data Fusion 개요

Cloud Data Fusion은 데이터 파이프라인을 신속하게 빌드 및 관리하기 위한 완전 관리형 클라우드 기반 기업 데이터 통합 서비스입니다. Cloud Data Fusion 웹 인터페이스를 사용하면 확장 가능한 데이터 통합 솔루션을 빌드할 수 있습니다. 이를 사용하면 인프라를 관리할 필요 없이 다양한 데이터 소스에 연결하고 데이터를 변환한 후 다양한 대상 시스템으로 전송할 수 있습니다.

Cloud Data Fusion은 오픈소스 프로젝트 CDAP를 지원합니다.

Cloud Data Fusion 시작하기

몇 분 내에 Cloud Data Fusion 탐색을 시작할 수 있습니다.

Cloud Data Fusion 인스턴스 만들기: Cloud Data Fusion 인스턴스를 만들어 작업을 시작합니다.
비용: 시작하기 전에 Cloud Data Fusion 비용에 대해 알아봅니다.
개념: Cloud Data Fusion에서 사용되는 주요 용어를 이해합니다.
빠른 시작: 첫 번째 파이프라인을 만들어 Cloud Data Fusion을 체험해 봅니다.

Cloud Data Fusion 살펴보기

다음 섹션에서는 Cloud Data Fusion의 주요 구성요소를 설명합니다.

테넌트 프로젝트

Cloud Data Fusion 파이프라인을 구축 및 조정하고 파이프라인 메타데이터를 저장하는 데 필요한 일련의 서비스는 테넌시 유닛 내 테넌트 프로젝트에 프로비저닝됩니다. Cloud Data Fusion 인스턴스가 프로비저닝되는 각 고객 프로젝트에 대해 별도의 테넌트 프로젝트가 생성됩니다. 테넌트 프로젝트는 고객 프로젝트의 모든 네트워킹 및 방화벽 구성을 상속합니다.

Cloud Data Fusion: 콘솔

컨트롤 플레인이라고도 하는 Cloud Data Fusion 콘솔은 Cloud Data Fusion 인스턴스 자체(예: 만들기, 삭제, 다시 시작, 업데이트)를 처리하는 API 작업 집합 및 웹 인터페이스입니다.

Cloud Data Fusion: Studio

데이터 영역이라고도 부르는 Cloud Data Fusion Studio는 파이프라인 및 관련 아티팩트의 생성, 실행, 관리를 처리하는 REST API 집합 및 웹 인터페이스 작업입니다.

개념

이 섹션에서는 Cloud Data Fusion의 몇 가지 핵심 개념을 소개합니다.

개념	설명
Cloud Data Fusion 인스턴스	Cloud Data Fusion 인스턴스는 Cloud Data Fusion의 고유한 배포입니다. Cloud Data Fusion을 시작하려면 Google Cloud 콘솔을 통해 Cloud Data Fusion 인스턴스를 만듭니다. 단일 Google Cloud 콘솔 프로젝트에서 인스턴스를 여러 개 만들고 Google Cloud Cloud Data Fusion 인스턴스를 만들려는 리전을 지정할 수 있습니다. 요구사항 및 비용 제약조건에 따라 개발자, 기본 또는 엔터프라이즈 인스턴스를 만들 수 있습니다. 각 Cloud Data Fusion 인스턴스에는 고유하고 독립적인 Cloud Data Fusion 배포가 포함되어 있습니다. 이 배포에는 파이프라인 수명 주기 관리, 조정, 메타데이터 관리를 처리하는 일련의 서비스가 포함되어 있습니다. 이 서비스는 테넌트 프로젝트에서 장기 실행 리소스를 통해 실행됩니다.
네임스페이스	네임스페이스는 Cloud Data Fusion 인스턴스의 애플리케이션, 데이터, 연결된 메타데이터를 논리적으로 그룹화한 것입니다. 네임스페이스는 인스턴스의 파티셔닝이라고 생각할 수 있습니다. 단일 인스턴스에서 하나의 네임스페이스는 다른 네임스페이스와는 별개로 항목의 데이터와 메타데이터를 저장합니다.
파이프라인	파이프라인은 다양한 온프레미스 및 클라우드 데이터 소스에서 데이터를 추출, 변환, 혼합, 집계, 로드하는 데이터 및 제어 흐름을 시각적으로 설계하는 방법입니다. 파이프라인을 빌드하면 데이터 수집, 통합, 마이그레이션과 관련된 문제를 해결하는 데 유용한 복잡한 데이터 처리 워크플로를 만들 수 있습니다. Cloud Data Fusion을 사용하면 니즈에 따라 일괄 파이프라인과 실시간 파이프라인을 모두 빌드할 수 있습니다. 파이프라인을 사용하면 데이터의 논리적 흐름을 사용하여 데이터 처리 워크플로를 표현할 수 있고 Cloud Data Fusion은 실행 환경에서 물리적으로 실행하는 데 필요한 모든 기능을 처리합니다.
파이프라인 노드	Cloud Data Fusion 웹 인터페이스의 Studio 페이지에서 파이프라인은 방향성 비순환 그래프(DAG)에 배열된 일련의 노드로 표시되어 단방향 흐름을 형성합니다. 노드는 소스에서 읽기, 데이터 변환 수행, 출력을 싱크에 쓰기 등 파이프라인에서 수행할 수 있는 다양한 작업을 나타냅니다. Cloud Data Fusion 웹 인터페이스에서 소스, 변환, 싱크, 기타 노드를 연결하여 데이터 파이프라인을 개발할 수 있습니다.
플러그인	플러그인은 Cloud Data Fusion의 기능을 확장하는 데 사용할 수 있는 맞춤설정 가능한 모듈입니다. Cloud Data Fusion에서는 소스, 변환, 집계, 싱크, 오류 수집자, 알림 게시자, 작업, 실행 후 작업용 플러그인을 제공합니다. 일반적으로 Cloud Data Fusion 웹 인터페이스의 컨텍스트에서는 플러그인을 노드라고도 합니다. 널리 사용되는 Cloud Data Fusion 플러그인을 검색하고 액세스하려면 Cloud Data Fusion 플러그인을 참조하세요.
허브	Cloud Data Fusion 웹 인터페이스에서 플러그인, 샘플 파이프라인, 기타 통합을 탐색하려면 허브를 클릭합니다. 플러그인의 새 버전이 출시되면 호환되는 모든 인스턴스에서 허브에 표시됩니다. 플러그인이 출시되기 전에 인스턴스가 생성된 경우에도 마찬가지입니다.
파이프라인 미리보기	Cloud Data Fusion Studio를 사용하면 데이터 하위 집합에서 미리보기를 사용하여 파이프라인 설계의 정확성을 테스트할 수 있습니다. 미리보기의 파이프라인은 테넌트 프로젝트에서 실행됩니다.
파이프라인 실행	Cloud Data Fusion은 파이프라인을 실행하기 위해 임시 실행 환경을 만듭니다. Cloud Data Fusion은 Dataproc을 실행 환경으로 지원합니다. Cloud Data Fusion은 파이프라인 실행 시작 시 고객 프로젝트에 임시 Dataproc 클러스터를 프로비저닝하고 클러스터에서 Spark를 사용하여 파이프라인을 실행한 후 파이프라인 실행이 완료되면 클러스터를 삭제합니다. 또는 Terraform과 같은 기술을 통해 제어된 환경에서 Dataproc 클러스터를 관리할 경우 클러스터를 프로비저닝하지 않도록 Cloud Data Fusion을 구성할 수도 있습니다. 이러한 환경에서는 기존 Dataproc 클러스터를 대상으로 파이프라인을 실행할 수 있습니다.
컴퓨팅 프로필	컴퓨팅 프로필은 파이프라인이 실행되는 방법과 위치를 지정합니다. 프로필은 파이프라인의 실제 실행 환경을 설정 및 삭제하는 데 필요한 모든 정보를 캡슐화합니다. 예를 들어 컴퓨팅 프로필에는 다음이 포함됩니다. 실행 프로비저닝 도구 리소스(메모리 및 CPU) 최소 및 최대 노드 수 기타 값 프로필은 이름으로 식별되며 프로비저닝 도구와 관련 구성이 할당되어야 합니다. 프로필은 Cloud Data Fusion 인스턴스 수준 또는 네임스페이스 수준으로 존재할 수 있습니다. Cloud Data Fusion 기본 컴퓨팅 프로필은 자동 확장입니다.
재사용 가능한 파이프라인	Cloud Data Fusion의 재사용 가능한 데이터 파이프라인을 사용하면 다양한 사용 사례와 데이터 세트에 데이터 통합 패턴을 적용할 수 있는 단일 파이프라인을 만들 수 있습니다. 재사용 가능한 파이프라인은 파이프라인 구성의 대부분을 설계 시 하드코딩하는 대신 실행 시 설정하여 관리 효율성을 높입니다.
트리거	Cloud Data Fusion은 데이터 파이프라인(다운스트림 파이프라인이라고 함)에서 트리거를 만들어 하나 이상의 서로 다른 파이프라인(업스트림 파이프라인이라고 함)이 완료되었을 때 실행되도록 지원합니다. 다운스트림 파이프라인이 실행되는 시점(예: 업스트림 파이프라인 실행의 성공, 실패, 중지 또는 이들의 조합)을 선택합니다. 트리거는 다음과 같은 경우에 유용합니다. 데이터를 한 번 정리한 다음 여러 다운스트림 파이프라인에서 사용할 수 있도록 합니다. 파이프라인 간에 런타임 인수 및 플러그인 구성과 같은 정보를 공유합니다. 이를 페이로드 구성이라고 합니다. 실행할 때마다 업데이트해야 하는 정적 파이프라인 대신 시간/일/주/월별 데이터를 사용하여 실행할 수 있는 동적 파이프라인 집합이 있습니다.

Cloud Data Fusion 리소스

Cloud Data Fusion 리소스를 살펴보세요.

출시 노트는 기능, 변경사항, 지원 중단에 대한 변경 로그를 제공합니다.
Cloud Data Fusion의 가격 책정
Cloud Data Fusion의 지원되는 리전
API 및 참조