Data Catalog 작업

Data Catalog는 테이블, 데이터 세트, 뷰, 모델 등 BigQuery 리소스에 대한 메타데이터를 자동으로 카탈로그화하여 BigQuery와 통합하는 Dataplex의 기능입니다. 이 문서에서는 Data Catalog를 사용하여 이러한 리소스를 검색하고, 데이터 계보를 보고, 태그를 추가하는 방법을 설명합니다.

BigQuery 리소스 검색

Data Catalog를 사용하여 BigQuery 데이터 세트, 테이블 및 별표표시된 프로젝트를 검색하려면 다음 단계를 따르세요.

  1. Google Cloud 콘솔에서 Dataplex 검색 페이지로 이동합니다.

    검색 페이지로 이동

  2. 검색 필드에서 쿼리를 입력한 후 검색을 클릭합니다.

    Data Catalog 검색을 사용하면 프로젝트와 조직에서 데이터를 찾을 수 있습니다.

    검색 매개변수를 상세검색하려면 필터 패널을 사용하세요. 예를 들어 시스템 섹션에서 BigQuery 체크박스를 선택하세요. 결과가 BigQuery 시스템으로 필터링됩니다.

Google Cloud 콘솔을 통해 Data Catalog에서 기본 검색을 수행할 수 있습니다. Google Cloud 콘솔에서 검색에 대한 자세한 내용은 공개 데이터 세트 열기를 참조하세요.

데이터 계보

데이터 계보는 시스템을 통해 데이터가 이동하는 방식, 즉 데이터의 출처, 데이터가 전달되는 위치, 데이터에 적용되는 변환을 추적할 수 있는 Dataplex 기능입니다. BigQuery에서 직접 데이터 계보 기능에 액세스할 수 있습니다.

BigQuery 프로젝트에서 데이터 계보를 사용 설정하면 Dataplex는 다음 작업으로 만든 테이블의 계보 정보를 자동으로 기록합니다.

시작하기 전에

이 섹션에서는 Data Lineage API를 사용 설정하고 이 문서의 각 작업을 수행하는 데 필요한 권한을 사용자에게 부여하는 Identity and Access Management (IAM) 역할을 부여하게 됩니다.

데이터 계보 사용 설정

  1. Google Cloud 콘솔의 프로젝트 선택기 페이지에서 계보를 추적할 리소스가 포함된 프로젝트를 선택합니다.

    프로젝트 선택기로 이동

  2. Data Lineage API 및 Data Catalog API를 사용 설정합니다.

    API 사용 설정

필요한 IAM 역할

Data Lineage API를 사용 설정하면 계보 정보가 자동으로 추적됩니다.

계보 시각화 그래프를 보는 데 필요한 권한을 얻으려면 관리자에게 다음 IAM 역할을 부여해 달라고 요청하세요.

역할 부여에 대한 자세한 내용은 액세스 관리를 참조하세요.

커스텀 역할이나 다른 사전 정의된 역할을 통해 필요한 권한을 얻을 수도 있습니다.

자세한 내용은 데이터 계보 역할을 참조하세요.

BigQuery에서 계보 그래프 보기

BigQuery에서 데이터 계보 시각화 그래프를 보려면 다음 단계를 따르세요.

  1. Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. 탐색기 패널에서 프로젝트와 데이터 세트를 펼친 후 테이블을 선택합니다.

  3. 계보 탭을 클릭합니다.

    Data 계보 탭.

    데이터 계보 시각화 그래프가 표시됩니다.

    데이터 계보 그래프

  4. (선택사항) 계보 정보 구성과 관련된 항목 또는 프로세스에 대한 추가 세부정보를 보려면 해당 노드를 선택하세요.

데이터 계보에 관한 자세한 내용은 데이터 계보 정보를 참고하세요.

태그 및 태그 템플릿

태그를 사용하면 조직에서 통합 서비스의 모든 데이터 항목에 대한 메타데이터를 만들고 검색하고 관리할 수 있습니다.

이 섹션에서는 Data Catalog의 두 가지 주요 개념을 설명합니다.

  • 태그를 사용하면 커스텀 메타데이터 필드를 연결하여 데이터 항목의 컨텍스트를 제공할 수 있습니다.

  • 태그 템플릿은 새 태그를 빠르게 만드는 데 사용할 수 있는 재사용 가능한 구조입니다.

태그

Data Catalog는 비공개 태그와 공개 태그라는 두 가지 유형의 태그를 제공합니다.

비공개 태그

비공개 태그는 엄격한 액세스 제어를 제공합니다. 개발자는 비공개 태그 템플릿과 데이터 항목 모두에 필수 보기 권한이 부여된 경우에만 태그 및 태그와 연결된 데이터 항목을 검색하거나 볼 수 있습니다.

Data Catalog 페이지에서 비공개 태그를 검색하려면 tag: 검색 구문이나 검색 필터를 사용해야 합니다.

비공개 태그는 민감한 정보를 태그에 저장해야 하는 시나리오와 개발자가 사용자에게 태그가 지정된 항목을 볼 수 있는 권한이 있는지 확인하는 것 외에 추가 액세스 제한사항을 적용하려는 시나리오에 적합합니다.

공개 태그

공개 태그는 비공개 태그와 비교 시 태그를 검색하고 볼 때 덜 엄격한 액세스 제어를 제공합니다. 데이터 항목에 필요한 보기 권한이 있는 사용자는 누구나 데이터 항목과 연결된 모든 공개 태그를 볼 수 있습니다. 공개 태그에 대한 보기 권한은 tag: 구문을 사용하여 Data Catalog에서 검색을 수행하거나 연결되지 않은 태그 템플릿을 보는 경우에만 필요합니다.

공개 태그는 Data Catalog 검색 페이지에서 조건자로 간단한 검색 및 검색을 모두 지원합니다. 태그 템플릿을 만들 때 공개 태그 템플릿을 만드는 옵션은 Google Cloud 콘솔의 기본 및 권장 옵션입니다.

예를 들어 Name, Location, Salary라는 데이터 항목 3개에 태그를 만드는 데 사용한 employee data라는 공개 태그 템플릿이 있다고 가정해 보겠습니다. 데이터 항목 3개 중에서 HR이라는 특정 그룹의 구성원만 Salary 데이터 항목을 볼 수 있습니다. 다른 두 데이터 항목에는 모든 회사 직원에 대한 보기 권한이 있습니다.

HR 그룹의 구성원이 아닌 직원이 Data Catalog 검색 페이지를 사용하고 employee 단어를 사용하여 검색하면 검색결과는 연결된 공개 태그가 있는 NameLocation 데이터 항목을 반환합니다.

공개 태그는 광범위한 시나리오 집합에 유용합니다. 공개 태그는 조건자를 사용한 간단한 검색 및 검색을 지원하고, 비공개 태그는 조건자를 사용한 검색만 지원합니다.

태그 템플릿

메타데이터에 태그를 지정하려면 먼저 태그 템플릿을 하나 이상 만들어야 합니다. 태그 템플릿은 공개 또는 비공개 태그 템플릿일 수 있습니다. 태그 템플릿을 만들 때 공개 태그 템플릿을 만드는 옵션은 Google Cloud 콘솔의 기본 및 권장 옵션입니다. 태그 템플릿은 필드라는 메타데이터 키-값 쌍의 그룹입니다. 템플릿 세트는 메타데이터의 데이터베이스 스키마와 유사합니다.

주제별로 태그를 구성할 수 있습니다. 예를 들면 다음과 같습니다.

  • 데이터 거버넌스, 보관 날짜, 삭제 날짜, PII(예 또는 아니요), 데이터 분류(공개, 기밀, 민감, 규제) 필드가 있는 data governance 태그
  • 품질 문제, 업데이트 빈도, SLO 정보의 필드가 포함된 data quality 태그
  • 상위 사용자, 인기 검색어, 평균 일일 사용자 관련 필드가 포함된 data usage 태그

그런 다음 각 데이터 애셋 및 비즈니스 요구 사항에 맞는 태그만 사용하여 태그를 조합하고 일치시킬 수 있습니다.

시작하는 데 도움이 되도록 Data Catalog에는 일반적인 태그 지정 사용 사례를 보여주는 샘플 태그 템플릿 갤러리가 포함되어 있습니다. 이러한 예시를 통해 태그 지정의 강력함을 알아보거나 고유한 태그 지정 인프라를 만들 수 있습니다.

태그 템플릿 템플릿을 사용하려면 다음 단계를 수행합니다.

  1. Google Cloud 콘솔에서 Dataplex 태그 템플릿 페이지로 이동합니다.

    태그 템플릿으로 이동

  2. 태그 템플릿 만들기를 클릭합니다.

    템플릿 갤러리가 템플릿 만들기 페이지의 일부로 표시됩니다.

갤러리에서 템플릿을 선택한 후 다른 태그 템플릿과 마찬가지로 사용할 수 있습니다. 템플릿의 속성을 추가 또는 삭제하고 비즈니스 니즈에 맞게 템플릿을 변경할 수 있습니다. 그런 다음 Data Catalog를 사용하여 템플릿 필드와 값을 검색할 수 있습니다.

태그 및 태그 템플릿에 대한 상세 설명은 태그 및 태그 템플릿을 참조하세요.

리전 리소스

모든 태그 템플릿과 태그는 특정 Google Cloud 리전에 저장됩니다. 태그 템플릿을 사용하여 모든 리전에서 태그를 만들 수 있으므로 메타데이터 항목이 여러 리전에 분산되어 있는 경우 템플릿 사본을 만들 필요가 없습니다.