아키텍처 및 구성요소

Cloud Data Fusion 인스턴스는 Google Cloud의 Compute Engine 영역 한 개에서 실행됩니다. 인스턴스는 Google Kubernetes Engine(GKE), Cloud SQL, Cloud Storage, Persistent Disk, Cloud Key Management Service 등 여러 Google Cloud 기술로 구성됩니다.

Cloud Data Fusion 인스턴스는 테넌시 유닛으로 프로비저닝됩니다. 데이터 파이프라인을 구축 및 조정하고 메타데이터의 중앙 관리를 위한 기능을 제공합니다. Cloud Data Fusion 인스턴스는 테넌트 프로젝트 내의 GKE 클러스터에서 실행되며 비즈니스, 기술, 작업 메타데이터 저장을 위해 Cloud Storage, Cloud SQL, Persistent Disk, Elasticsearch, Cloud KMS를 사용합니다.

Cloud Data Fusion 아키텍처의 주 구성요소에 대해서는 다음 섹션에서 설명합니다.

테넌트 프로젝트

Cloud Data Fusion 파이프라인을 구축 및 조정하고 파이프라인 메타데이터를 저장하는 데 필요한 일련의 서비스는 테넌시 유닛 내 테넌트 프로젝트에 프로비저닝됩니다. Cloud Data Fusion 인스턴스가 프로비저닝되는 각 고객 프로젝트에 대해 별도의 테넌트 프로젝트가 생성됩니다. 테넌트 프로젝트는 고객 프로젝트의 모든 네트워킹 및 방화벽 구성을 상속합니다.

제어 영역

제어 영역은 Cloud Data Fusion 인스턴스 자체를 처리하는 API 작업 집합입니다(예: 만들기, 삭제, 다시 시작, 업데이트).

데이터 영역

데이터 영역은 파이프라인 및 관련 아티팩트 생성, 실행, 모니터링과 같이 Cloud Data Fusion의 주요 기능을 처리하는 REST API 작업 집합을 의미합니다. 예를 들어 데이터 영역 작업으로 파이프라인을 만들거나 중지합니다. 자세한 내용은 CDAP 참조를 확인하세요.

시스템 서비스

Cloud Data Fusion이 파이프라인 수명 주기, 조정, 메타데이터를 관리하는 데 사용하는 일련의 서비스입니다. Cloud Data Fusion은 GKE를 사용하여 이러한 서비스를 조정합니다.

웹 인터페이스

Cloud Data Fusion 웹 인터페이스는 데이터 파이프라인을 개발, 관리, 실행하고 통합 메타데이터를 검색하고 보고 관리하기 위한 그래픽 인터페이스입니다. 웹 인터페이스는 GKE 클러스터에서도 실행됩니다.

허브

Cloud Data Fusion 웹 인터페이스에서 플러그인, 샘플 파이프라인, 기타 통합을 찾아보려면 허브를 클릭하세요. 새 버전의 플러그인이 출시되면 호환되는 모든 인스턴스의 허브에 표시됩니다. 이는 플러그인이 출시되기 전에 인스턴스가 생성된 경우에도 적용됩니다.

메타데이터 스토리지

Cloud Data Fusion은 Cloud Storage, Cloud SQL, Persistent Disk, Elasticsearch를 사용하여 기술, 비즈니스, 작업 메타데이터를 저장합니다.

네임스페이스

네임스페이스를 사용하여 Cloud Data Fusion 인스턴스를 파티션으로 나눠서 설계 및 실행 환경에서 애플리케이션 및 데이터를 격리할 수 있습니다. 자세한 내용은 네임스페이스를 참조하세요.

도메인

공개 IP를 사용하면 Cloud Data Fusion 웹 인터페이스 및 백엔드 서비스는 datafusion.cdap.app 도메인에서 실행됩니다. 이러한 서비스는 HTTPS를 사용하여 노출되며 SSL 인증서를 사용하여 연결을 암호화합니다.

파이프라인 실행

Cloud Data Fusion은 Dataproc 클러스터를 사용하여 파이프라인을 실행합니다. Cloud Data Fusion은 자동으로 임시 Dataproc 클러스터를 프로비저닝하고 이 클러스터에서 파이프라인을 실행한 후 파이프라인 실행이 완료되면 클러스터를 해체합니다. 원하는 경우 기존 Dataproc 클러스터에서 파이프라인을 실행할 수도 있습니다.

Dataproc 클러스터 및 Cloud Storage 버킷은 Cloud Data Fusion 인스턴스와 동일한 리전에 있습니다. 자세한 내용은 일반 서비스 약관의 데이터 위치Cloud Data Fusion FAQ를 참조하세요.

Google Cloud 운영 제품군

원하는 경우 Google Cloud 운영 제품군에 로그를 보낼 수 있습니다. 인스턴스가 Google Cloud 운영 제품군과 통합되도록 구성된 경우 다음 두 가지 유형의 로그가 Google Cloud 운영 제품군으로 전송됩니다.

  1. 감사 로그: 모든 인스턴스 관리 작업에서 Cloud Data Fusion이 감사 로그를 Google Cloud 운영 제품군으로 보냅니다.

  2. 파이프라인 로그: 다음에서 로그를 찾을 수 있습니다.

    • Google Cloud 운영 제품군의 Dataproc 클러스터 로그에 있는 Cloud Data Fusion 파이프라인
    • 파이프라인을 실행하는 Cloud Data Fusion 파이프라인 스튜디오 페이지

Cloud Data Fusion에서의 로그 작업에 대해 자세히 알아보세요.

미리보기

Cloud Data Fusion Studio 페이지에서 데이터 파이프라인을 만들 때 파이프라인 소스의 데이터 부분을 보려면 미리보기를 클릭합니다.

미리보기의 파이프라인이 테넌트 프로젝트에서 실행되고 파이프라인을 배포할 때 관련 컴퓨팅 프로필의 고객 프로젝트에서 실행됩니다. 파이프라인을 배포한 후 미리보기 기능을 사용하도록 파이프라인을 복제해야 합니다.

다음 단계