Cloud Data Fusion은 데이터 파이프라인을 신속하게 빌드 및 관리하기 위한 완전 관리형 클라우드 기반 기업 데이터 통합 서비스입니다. Cloud Data Fusion 웹 인터페이스를 사용하면 확장 가능한 데이터 통합 솔루션을 빌드할 수 있습니다. 인프라를 관리할 필요 없이 다양한 데이터 소스에 연결하고 데이터를 변환한 후 다양한 대상 시스템으로 전송할 수 있습니다.
Cloud Data Fusion 파이프라인을 구축 및 조정하고 파이프라인 메타데이터를 저장하는 데 필요한 일련의 서비스는 테넌시 유닛 내 테넌트 프로젝트에 프로비저닝됩니다. Cloud Data Fusion 인스턴스가 프로비저닝되는 각 고객 프로젝트에 대해 별도의 테넌트 프로젝트가 생성됩니다. 테넌트 프로젝트는 고객 프로젝트의 모든 네트워킹 및 방화벽 구성을 상속합니다.
Cloud Data Fusion: 콘솔
제어 영역이라고도 하는 Cloud Data Fusion 콘솔은 Cloud Data Fusion 인스턴스 자체(예: 만들기, 삭제, 다시 시작, 업데이트)를 처리하는 API 작업 집합 및 웹 인터페이스입니다.
Cloud Data Fusion: Studio
데이터 영역이라고도 부르는 Cloud Data Fusion Studio는 파이프라인 및 관련 아티팩트의 생성, 실행, 관리를 처리하는 REST API 집합 및 웹 인터페이스 작업입니다.
개념
이 섹션에서는 Cloud Data Fusion의 몇 가지 핵심 개념을 소개합니다.
개념
설명
Cloud Data Fusion 인스턴스
Cloud Data Fusion 인스턴스는 Cloud Data Fusion의 고유한 배포입니다. Cloud Data Fusion을 시작하려면 Google Cloud 콘솔을 통해 Cloud Data Fusion 인스턴스를 만듭니다.
단일 Google Cloud 콘솔 프로젝트에서 인스턴스를 여러 개 만들고 Cloud Data Fusion 인스턴스를 만들려는 Google Cloud 리전을 지정할 수 있습니다.
각 Cloud Data Fusion 인스턴스에는 고유하고 독립적인 Cloud Data Fusion 배포가 포함되어 있습니다. 이 배포에는 파이프라인 수명 주기 관리, 조정, 메타데이터 관리를 처리하는 일련의 서비스가 포함되어 있습니다. 이 서비스는 테넌트 프로젝트에서 장기 실행 리소스를 통해 실행됩니다.
네임스페이스
네임스페이스는 Cloud Data Fusion 인스턴스에서 애플리케이션, 데이터, 관련 메타데이터를 논리적으로 그룹화한 것입니다. 네임스페이스는 인스턴스의 파티션 나누기와 같습니다. 단일 인스턴스에서 한 네임스페이스는 다른 네임스페이스와 독립적으로 항목의 데이터와 메타데이터를 저장합니다.
파이프라인
파이프라인은 다양한 온프레미스 및 클라우드 데이터 소스에서 데이터를 추출, 변환, 혼합, 집계, 로드하는 데이터 및 제어 흐름을 시각적으로 설계하는 방법입니다.
파이프라인을 빌드하면 데이터 수집, 통합, 마이그레이션과 관련된 문제를 해결하는 데 유용한 복잡한 데이터 처리 워크플로를 만들 수 있습니다. Cloud Data Fusion을 사용하면 니즈에 따라 일괄 파이프라인과 실시간 파이프라인을 모두 빌드할 수 있습니다.
파이프라인은 데이터의 논리적 흐름을 사용하여 데이터 처리 워크플로를 표현하고 Cloud Data Fusion은 실행 환경에서 물리적으로 실행하는 데 필요한 모든 기능을 처리합니다.
파이프라인 노드
Cloud Data Fusion 웹 인터페이스의 Studio 페이지에서 파이프라인은 방향성 비순환 그래프(DAG)에 배열된 일련의 노드로 표시되어 단방향 흐름을 형성합니다.
노드는 소스에서 읽기, 데이터 변환 수행, 출력을 싱크에 쓰기 등 파이프라인에서 수행할 수 있는 다양한 작업을 나타냅니다. Cloud Data Fusion 웹 인터페이스에서 소스, 변환, 싱크, 기타 노드를 연결하여 데이터 파이프라인을 개발할 수 있습니다.
플러그인
플러그인은 Cloud Data Fusion의 기능을 확장하는 데 사용할 수 있는 맞춤설정 가능한 모듈입니다.
Cloud Data Fusion에서는 소스, 변환, 집계, 싱크, 오류 수집자, 알림 게시자, 작업, 실행 후 작업용 플러그인을 제공합니다.
일반적으로 Cloud Data Fusion 웹 인터페이스의 컨텍스트에서는 플러그인을 노드라고도 합니다.
Cloud Data Fusion은 파이프라인 실행 시작 시 고객 프로젝트에 임시 Dataproc 클러스터를 프로비저닝하고 클러스터에서 Spark를 사용하여 파이프라인을 실행한 후 파이프라인 실행이 완료되면 클러스터를 삭제합니다.
또는 Terraform과 같은 기술을 통해 제어된 환경에서 Dataproc 클러스터를 관리할 경우 클러스터를 프로비저닝하지 않도록 Cloud Data Fusion을 구성할 수도 있습니다. 이러한 환경에서는 기존 Dataproc 클러스터를 대상으로 파이프라인을 실행할 수 있습니다.
컴퓨팅 프로필
컴퓨팅 프로필은 파이프라인이 실행되는 방법과 위치를 지정합니다. 프로필은 파이프라인의 실제 실행 환경을 설정 및 삭제하는 데 필요한 모든 정보를 캡슐화합니다.
예를 들어 컴퓨팅 프로필에는 다음이 포함됩니다.
실행 프로비저닝 도구
리소스(메모리 및 CPU)
최소 및 최대 노드 수
기타 값
프로필은 이름으로 식별되며 프로비저닝 도구와 관련 구성이 할당되어야 합니다. 프로필은 Cloud Data Fusion 인스턴스 수준 또는 네임스페이스 수준으로 존재할 수 있습니다.
Cloud Data Fusion 기본 컴퓨팅 프로필은 자동 확장입니다.
재사용 가능한 파이프라인
Cloud Data Fusion의 재사용 가능한 데이터 파이프라인을 사용하면 다양한 사용 사례와 데이터 세트에 데이터 통합 패턴을 적용할 수 있는 단일 파이프라인을 만들 수 있습니다.
재사용 가능한 파이프라인은 설계 시 하드 코딩하는 대신 실행 시 대부분의 파이프라인 구성을 설정하여 관리 효율을 높입니다.
트리거
Cloud Data Fusion은 데이터 파이프라인(다운스트림 파이프라인이라고 함)에서 트리거를 만들어 하나 이상의 서로 다른 파이프라인(업스트림 파이프라인이라고 함)이 완료되었을 때 실행되도록 지원합니다. 다운스트림 파이프라인이 실행되는 시점(예: 업스트림 파이프라인 실행의 성공, 실패, 중지 또는 이들의 조합)을 선택합니다.
트리거는 다음과 같은 경우에 유용합니다.
데이터를 한 번 정리한 다음 여러 다운스트림 파이프라인에서 사용할 수 있도록 합니다.
파이프라인 간에 런타임 인수 및 플러그인 구성과 같은 정보를 공유합니다. 이를 페이로드 구성이라고 합니다.
실행할 때마다 업데이트해야 하는 정적 파이프라인 대신 시간/일/주/월별 데이터를 사용하여 실행할 수 있는 동적 파이프라인 집합이 있습니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["Hard to understand","hardToUnderstand","thumb-down"],["Incorrect information or sample code","incorrectInformationOrSampleCode","thumb-down"],["Missing the information/samples I need","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2024-02-27(UTC)"],[],[]]