Dataplex 용어집

Dataplex는 중앙에서 데이터 및 서비스를 관리하여 분석을 위한 엔드 투 엔드 여정을 통합합니다. 이 용어집에서는 관리 시스템 내에서 사용되는 용어를 정의하고자 합니다.

용어집 목록

작업

사용자의 작업 가능한 문제입니다. 예를 들면 다음과 같습니다.

  • 사용자가 제공한 보안 그룹이 존재하지 않아 보안 정책 전파에 실패했습니다.
  • Dataplex에서 관리형 리소스에 액세스할 수 없습니다.
  • 검색 작업이 다양한 이유로 실패했습니다(사용자가 해결할 수 있음). 이 문제는 잘못된 데이터 형식, 파티션 간 호환되지 않는 스키마 또는 일관되지 않은 파티션 이름 지정과 같은 사용자 데이터 문제로 인해 발생할 수 있습니다.

작업은 Dataplex에서 자동으로 생성됩니다. 일부 작업은 사용자가 기본 문제를 해결한 것으로 감지되면 Dataplex에 의해 자동으로 삭제됩니다. 다른 작업은 사용자가 해결한 것으로 명시적으로 표시해야 합니다.

예를 들어 사용자가 검색 작업을 처리하면 Dataplex API를 호출하여 작업을 해결됨으로 표시하여 검색 시스템이 일시중지를 해제하고 즉시 검색 실행을 예약할 수 있도록 합니다.

애셋

애셋은 Dataplex의 단일 관리형 리소스(버킷/데이터 세트)를 나타냅니다. 또한 관리형 리소스와 이를 대상으로 하는 하위 시스템(검색, 정책 관리 등)의 다양한 구성에 대한 자리표시자입니다.

BigQuery

BigQuery는 Google Cloud의 페타바이트급 규모의 경제적인 완전 관리형 분석 데이터 웨어하우스로, 거의 실시간으로 방대한 양의 데이터를 분석할 수 있습니다.

BigQuery를 사용하면 설정하거나 관리할 인프라가 없으므로 표준 SQL을 사용하여 유용한 정보를 찾는 데 집중하고 주문형 옵션과 정액제 옵션에서 유연하게 가격 책정 모델을 활용할 수 있습니다. 자세히 알아보기

데이터

관리형 리소스 내의 사용자 데이터입니다. 예를 들어 버킷의 Cloud Storage 객체나 데이터 세트의 BigQuery 테이블 행이 있습니다. Cloud Storage의 경우 객체는 변경 불가능한 사용자 데이터 단위입니다. BigQuery 데이터 세트의 경우 하위 테이블 내의 행은 사용자 데이터로 간주됩니다.

Data Catalog

Data Catalog는 조직에서 Google Cloud의 모든 사내 데이터를 신속하게 찾고 관리하며 파악할 수 있도록 지원하는 확장 가능한 완전 관리형 메타데이터 관리 서비스입니다. 자세히 알아보기

Dataplex 서비스 계정

Dataplex 대신 여러 작업을 수행하는 내부 관리형 Google Cloud 서비스 계정을 나타냅니다. 예를 들어 서비스 계정 사용자 인증 정보는 검색 시스템, 정책 관리 시스템 등에서 사용됩니다.

서비스 계정에서 작업을 수행하기 위해 사용자 관리 리소스와 프로젝트에 대한 다양한 IAM 권한이 필요합니다. 일부는 프로젝트에서 Dataplex를 활성화하는 과정에서 자동으로 부여됩니다. 나머지(예: 다른 프로젝트의 버킷 연결)는 사용자가 수동으로 부여해야 합니다.

Dataproc Metastore

Dataproc Metastore는 기술적인 메타데이터 관리를 크게 간소화해주는 완전 관리형의 고가용성, 자동 확장, 자동 복구, OSS 기본 Metastore 서비스입니다. Dataproc Metastore 서비스는 Apache Hive 메타스토어를 기반으로 하며 기업 데이터 레이크에 핵심 구성요소로서 작동합니다. 자세히 알아보기

탐색

사용자 데이터를 크롤링하고 메타데이터를 추출하는 하위 시스템입니다.

항목 그룹

항목 그룹에는 항목이 포함됩니다. 항목 그룹은 항목 그룹 내에서 항목을 생성, 수정, 확인할 수 있는 사용자를 지정하는 Identity and Access Management 정책이 포함된 논리적으로 관련성이 높은 항목 집합입니다.

파일 세트

파일 세트는 사용자가 만든 항목 그룹 내에 있는 항목입니다. 파일 세트는 한 개 이상의 Cloud Storage 파일 집합을 지정하는 하나 이상의 파일 패턴으로 정의됩니다. 파일 세트 항목을 사용하여 Cloud Storage 파일을 정리 및 탐색하고 메타데이터를 추가할 수 있습니다.

레이크

레이크는 여러 클라우드 프로젝트에 분산된 조직 간에 엔터프라이즈 데이터를 관리하기 위한 중앙 집중식 저장소로, Cloud Storage 및 BigQuery와 같은 다양한 스토리지 서비스에 저장됩니다. 레이크에 연결된 리소스를 관리형 리소스라고 합니다. 이러한 관리형 리소스 내의 데이터는 구조화되거나 구조화되지 않을 수 있습니다.

레이크는 데이터 관리자에게 데이터를 대규모로 구성, 보호 및 관리할 수 있는 도구를 제공하고, 데이터 과학자와 데이터 엔지니어에게 데이터 및 관련 메타데이터를 쉽게 검색, 탐색, 분석, 변환할 수 있는 통합 환경을 제공합니다.

로그

사용자가 레이크 작동에 대한 정보를 얻고 디버깅을 수행하며 알림을 설정하는 데 사용할 수 있는 Dataplex에서 제공되는 Stackdriver 로그입니다. 예를 들면 다음과 같습니다.

  • 주의가 필요한 작업 표시
  • 메타데이터 변경사항 표시
  • 작업 실행 요약 표시
  • 검색 작업 동작 표시(파일 읽기, 쓰기 등)

메타데이터

검색 시스템으로 사용자 데이터에서 추출한 정보입니다. 예를 들어 Cloud Storage 버킷 이름, BigQuery 데이터 세트 속성, 하위 BigQuery 테이블 스키마가 있습니다.

메타데이터의 두 가지 유형은 다음과 같습니다.

  • 스키마와 같은 기술 메타데이터
  • 데이터 통계(예: Cloud Storage의 총 객체 수 및 크기)와 같은 작업 메타데이터

측정항목

측정항목은 Dataplex에서 공개 API로 노출되는 Stackdriver 측정항목을 나타내며, 사용자가 이를 사용하여 Stackdriver 알림을 설정하거나 그래프를 통해 시각화할 수 있습니다. 특정 Dataplex 측정항목에 대한 자세한 내용은 Dataplex Cloud Monitoring을 참조하세요.

적용

특정 리소스 구성을 변경하면 사용자가 지정한 내용과 관리형 리소스의 상태를 조정하는 백그라운드 비동기 프로세스가 시작됩니다. 예를 들어 레이크에 지정된 보안 구성을 해당 레이크 아래의 수천 개의 관리형 리소스(버킷/데이터 세트)의 IAM 정책으로 전파해야 합니다. API가 호출되자마자 바로 수행되는 것은 아닙니다. 이 프로세스를 전파라고 합니다.

전파 상태는 관련 상태 필드에 반영되며 오류는 작업을 통해 표시됩니다.

리소스

Dataplex 리소스

레이크, 데이터 영역, 애셋과 같은 Dataplex 서비스에서 정의된 Google Cloud 리소스입니다.

하위 리소스

관리형 리소스의 하위 리소스입니다. 예를 들어 Cloud Storage 객체 또는 BigQuery 테이블/루틴/모델이 있습니다. 하위 리소스 정책 관리는 Dataplex를 통해 직접 수행되지 않지만 유효 정책은 상위 리소스에서 상속된 정책의 영향을 받습니다.

관리형 리소스

Dataplex를 통해 관리 및 검색할 수 있는 Google Cloud 리소스입니다. 현재 Cloud Storage 버킷과 BigQuery 데이터 세트입니다. 관리형 리소스는 레이크와 다른 프로젝트에 속할 수 있지만 동일한 조직에 속해야 합니다.

사양

사용자 제공 사양입니다. 예를 들면 다음과 같습니다.

  • 보안 사양은 레이크/영역/애셋의 보안 구성을 지정합니다.
  • 애셋의 리소스 사양은 관리형 리소스(버킷/데이터 세트)에 대한 포인터를 지정합니다.
  • 검색 사양은 애셋의 검색 구성을 지정합니다.

상태

사용자가 제공한 사양의 상태를 나타냅니다. 예를 들면 다음과 같습니다.

  • 보안 상태는 보안 사양과 같은 보안 정책이 기본 버킷/데이터 세트에 전파되는 상태를 나타냅니다.
  • 리소스 상태는 리소스 사양에 지정된 관리형 리소스의 상태(예: 확인됨 / 찾을 수 없음/ 권한 거부됨)를 나타냅니다.
  • 검색 상태는 검색 사양에 따라 실행되는 검색 작업의 상태를 나타냅니다.

테이블

관리형 리소스에서 데이터(또는 그 하위 집합)로 지원되는 잘 정의된 스키마(열 이름 및 유형)가 있는 논리적 테이블(행 및 열)입니다. 예를 들어 테이블은 Cloud Storage 버킷의 Cloud Storage 객체 또는 BigQuery 데이터 세트의 BigQuery 테이블의 하위 집합으로 지원될 수 있습니다.

  • 최고 수준의 개념인 테이블은 Dataproc Metastore, Data Catalog, BigQuery(메타데이터 등록)에 표시됩니다. 다운스트림 시스템에 대한 검색 또는 게시가 사용 설정되지 않은 경우 테이블은 다운스트림에 표시되지 않습니다. 예를 들어 BigQuery에 게시가 사용 설정되어 있지 않으면 Cloud Storage의 사용자 데이터에서 검색된 테이블은 BigQuery에 표시되지 않습니다.
  • 검색 시스템에서 검색 사용자가 만들 수 없습니다.
  • 테이블 이름은 쿼리하기 쉽도록 짧고 의미 있는 이름으로 생성됩니다. 이름은 [Prefix_]table root path[_Sequence number]의 세 부분으로 구성됩니다.

영역

레이크 내에 생성된 하나 이상의 데이터 리소스에 대한 논리적 컨테이너입니다. 데이터 영역은 조직 내 비즈니스 단위를 모델링하는 데 사용될 수 있습니다(예: 영업과 운영 비교). 데이터 영역은 데이터 여정 또는 소비 준비 상태를 모델링하기도 합니다.

원본 영역

일반적으로 소비 및 분석 워크로드에 사용할 준비가 되기 전 추가 처리가 필요한 데이터가 포함된 데이터 영역입니다.

선별된 영역

광범위한 소비 및 분석 워크로드에 사용할 수 있는 데이터를 포함하는 데이터 영역입니다. Cloud Storage에 저장된 선별된 구조화된 데이터는 특정 파일 형식(Parquet, Avro, ORC)을 준수해야 하며 하이브 호환 디렉터리 레이아웃으로 구성되어야 합니다.

다음 단계