스캔으로 데이터 프로필 통계 생성

이 문서에서는 BigQuery와 Dataplex를 함께 사용하여 데이터를 더 잘 이해하는 방법에 대해 설명합니다. BigQuery는 Dataplex를 사용하여 평균값, 고유값, 최댓값과 같은 데이터의 통계 특성을 분석합니다. 또한 Dataplex는 이 정보를 사용하여 데이터 품질 검사 규칙을 추천합니다.

데이터 프로파일링에 대한 자세한 내용은 데이터 프로파일링 정보를 참조하세요.

시작하기 전에

  • 프로젝트에서 스캔을 만들고 수정하려면 Dataplex API를 사용 설정하세요.

    Dataplex API 사용 설정

  • 프로젝트 간 스캔: gcloud beta services identity create 명령어로 Dataplex 서비스 식별자를 만듭니다. Dataplex 서비스 식별자가 없는 경우 이 명령어는 새 식별자를 반환합니다. 서비스 식별자가 이미 있는 경우 이 명령어는 기존 식별자를 반환합니다. 이 명령어는 gcloud CLI 베타 명령어 구성요소를 설치하라는 메시지를 표시할 수 있습니다.

    gcloud beta services identity create
    --service=dataplex.googleapis.com
    

필요한 역할

액세스가 필요한 사용 사례에 따라 적절한 계정 주 구성원에게 다음 역할을 부여해 달라고 관리자에게 요청하세요. 역할 부여에 대한 자세한 내용은 액세스 관리를 참조하세요.

BigQuery 역할

  • 테이블에 대한 BigQuery 데이터 뷰어: 결과를 게시하지 않고 테이블을 스캔
  • 테이블에 대한 BigQuery 데이터 편집자: 게시된 테이블에 대한 스캔 생성
  • BigQuery 테이블과 데이터 프로필 스캔이 서로 다른 프로젝트에 있는 경우 연결된 주 구성원 또는 Dataplex 서비스 계정에 해당하는 BigQuery 테이블에 대한 읽기 권한 bigquery.tables.getData(또는 BigQuery 데이터 뷰어 역할)을 부여해야 합니다. 서비스 계정의 서비스 ID를 가져오려면 시작하기 전에를 참조하세요.
  • Cloud Storage에서 BigQuery 외부 테이블을 스캔하는 경우 Dataplex 서비스 계정에 Cloud Storage 역할(roles/storage.objectViewer)을 할당합니다.

Dataplex 역할

  • 프로젝트 수준의 Dataplex 데이터 스캔 관리자 - 스캔을 만듭니다.
  • 스캔에 대한 Dataplex 데이터 스캔 편집자 - 스캔 속성(권한 제외)을 수정하고 스캔을 실행하며 스캔을 삭제합니다.
  • 스캔에 대한 Dataplex DataScan DataViewer - 스캔 결과를 열람합니다.

이러한 역할에는 이전 사용 사례에 필요한 권한이 포함되어 있습니다. 정확히 어떤 권한이 필요한지 보려면 필수 권한 섹션을 펼치세요.

필수 권한

데이터 프로필 스캔의 여러 측면을 사용하려면 다음 권한이 필요합니다.

  • 데이터 스캔 구성 변경: Datascan 리소스에서 dataplex.datascans.update
  • 데이터 스캔 정책 변경: Datascan 리소스에서 dataplex.datascans.setIamPolicy
  • BigQuery 테이블에 데이터 스캔 생성: 스캔할 테이블의 bigquery.tables.getData
  • 프로젝트에서 데이터 스캔 생성: 프로젝트에 대한 dataplex.datascans.create
  • 데이터 스캔 실행: Datascan 리소스에서 dataplex.datascans.delete
  • 데이터 스캔 결과를 BigQuery 데이터 세트로 내보내기: 대상 데이터 세트에 대한 bigquery.datasets.get, bigquery.tables.create, bigquery.tables.get, bigquery.tables.update, bigquery.tables.updateData
  • 데이터 스캔 결과를 테이블에 게시: 대상 테이블에 대한 bigquery.tables.update
  • 데이터 스캔 실행: Datascan 리소스에서 dataplex.datascans.run
  • Cloud Storage에서 외부 테이블 스캔: - 스캔할 테이블이 포함된 버킷에 대한 storage.buckets.get, storage.objects.get
  • 데이터 스캔 결과 보기: 데이터 스캔 리소스에서 dataplex.datascans.getData
  • 데이터 스캔 결과 보기: 데이터 스캔 리소스에서 dataplex.datascans.get
  • 데이터 스캔 결과 보기: 데이터 스캔 리소스에서 dataplex.datascans.list

커스텀 역할이나 다른 사전 정의된 역할을 사용하여 이 권한을 부여받을 수도 있습니다.

데이터 프로필 스캔 만들기

  1. Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. 탐색기 창에서 데이터 프로필 스캔의 테이블을 클릭합니다.

  3. 데이터 프로필 탭을 클릭합니다.

  4. 데이터 프로필 스캔 > 새 스캔 만들기를 클릭합니다.

  5. (선택사항): 다음 값을 수정합니다.

    • 표시 이름: 콘솔에 있는 변경 가능한 리소스 이름입니다.
    • ID: 스캔의 고유한 식별자입니다. 스캔이 생성된 후에는 변경할 수 없습니다.
    • 설명: 검사에 대한 설명입니다.
    • 리전: 데이터 스캔이 처리되는 리전을 정의합니다.
    • 범위: 스캔에 사용할 수 있는 데이터 범위입니다. 증분 또는 전체 데이터를 선택합니다. 증분을 선택할 경우 선형적으로 증가하는 DATE 또는 TIMESTAMP 열을 포함하는 것이 좋습니다. 이 열을 사용하여 새 레코드를 식별할 수 있습니다. DATE 또는 TIMESTAMP 유형의 열로 파티션을 나눈 테이블의 경우 파티션 열을 타임스탬프 필드로 사용하는 것이 좋습니다.
    • 필터: 스캔이 실행되기 전에 데이터에 적용할 필터입니다. 행 필터링, 열 필터링 또는 둘 다를 선택할 수 있습니다.
      • 행을 필터링하려면 행 필터링 체크박스를 선택하고 입력 텍스트 필드에 유효한 SQL 표현식을 입력합니다. 이 표현식은 BigQuery 표준 SQL 문법이어야 하며 WHERE에 사용될 수 있습니다.
      • 열을 필터링하려면 열 필터링 체크박스를 선택하고 열 포함 필드 또는 열 제외 필드를 입력하거나, 두 필드 모두 입력합니다.
    • 샘플링 크기: 샘플링할 데이터의 백분율입니다. 증분 데이터 스캔의 경우 최신 증분만 샘플링됩니다.
    • BigQuery 및 Dataplex 카탈로그 UI에 결과 게시: 이 옵션은 소스 테이블의 데이터 프로필 탭 아래의 BigQuery UI에서 이용할 수 있는 최신 데이터 프로파일링 스캔 결과를 제공합니다. 스캔이 실행 중이고 게시로 설정된 경우 이 옵션을 사용하지 못할 수 있습니다.
    • 일정: 주문형(기본값) 또는 반복입니다. 반복을 선택하는 경우 매일, 매주, 매월, 또는 커스텀으로 예약된 스캔 빈도를 지정하세요. 커스텀은 크론 시간 형식을 사용하여 일정을 지정합니다. 예를 들어 두 번째 화요일 오전 1시에 실행되도록 설정된 스캔은 0 1 8-14 * 2와 같습니다.
  6. (선택사항): 창에 추가 설정 설정을 표시하려면 계속을 클릭하고 다음 값을 수정합니다.

    • BigQuery 테이블로 스캔 결과 내보내기: BigQuery 데이터 세트와 테이블을 선택하여 프로필 스캔 결과를 저장합니다. 데이터 세트가 정의되어 있지만 테이블이 정의되지 않은 경우 Dataplex에서 테이블을 만듭니다. 이 방식으로 생성된 테이블에는 스토리지 비용이 발생할 수 있습니다.
    • 라벨: 스캔에 라벨을 추가합니다.
  7. 필요에 따라 다음 버튼 중 하나를 클릭합니다.

    • 스캔 설정을 저장하려면 만들기를 클릭합니다.
    • 스캔을 저장하고 실행하려면 실행을 클릭합니다.

데이터 프로필 스캔 권한 관리

기존 프로필 스캔의 액세스 권한을 변경하려면 다음을 수행합니다.

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. 탐색기 창에서 데이터 프로필 스캔을 위한 테이블을 선택합니다.

  3. 데이터 프로필 탭을 클릭합니다.

  4. 데이터 프로필 스캔 > 스캔 권한 관리를 클릭합니다. 그러면 새 탭에서 Dataplex가 열립니다.

  5. 권한 탭을 클릭합니다.

    • 주 구성원에 액세스 권한을 부여하려면 액세스 권한 부여를 클릭하고 연결된 주 구성원에게 Dataplex DataScan DataViewer를 부여합니다.
    • 주 구성원에서 액세스 권한을 삭제하려면 액세스 삭제를 클릭하고 연결된 주 구성원에서 Dataplex DataScan DataViewer를 삭제합니다.

기존 데이터 프로필 스캔 수정

  1. Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. 탐색기 창에서 데이터 프로필 스캔을 위한 테이블을 선택합니다.

  3. 데이터 프로필 스캔 > 스캔 구성 수정을 클릭합니다.

그러면 데이터 프로필 스캔 설정이 열리고 이후 스캔을 위해 수정하고 저장할 수 있습니다.

데이터 프로필 스캔 결과 보기

데이터 프로필 스캔 결과를 보는 방법에는 여러 가지가 있습니다. 자신에게 가장 잘 맞는 옵션을 선택하세요.

게시된 결과 보기

  1. Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. 탐색기 창에서 데이터 프로필 스캔을 위한 테이블을 선택합니다.

  3. 데이터 프로필 탭을 클릭합니다.

최근에 게시된 결과가 이 뷰에 표시됩니다.

이전 스캔 결과 보기

  1. Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. 탐색기 창에서 데이터 프로필 스캔을 위한 테이블을 선택합니다.

  3. 데이터 프로필 탭을 클릭합니다.

  4. 데이터 프로필 스캔 > 이전 결과 보기를 클릭합니다.

테이블의 모든 데이터 프로필 스캔 보기

특정 테이블의 스캔 기록이 있는 Dataplex를 열려면 다음을 수행합니다.

  1. Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. 탐색기 창에서 데이터 프로필 스캔을 위한 테이블을 선택합니다.

  3. 데이터 프로필 스캔 > 모든 스캔 보기를 클릭합니다.