Dataplex Universal Catalog를 사용하면 데이터 프로필 스캔을 만들어 데이터 프로필을 더 잘 이해할 수 있습니다.
다음 다이어그램은 Dataplex Universal Catalog가 데이터를 스캔하여 통계적 특성을 보고하는 방법을 보여줍니다.
데이터 프로파일링 스캔은 하나의 BigQuery 테이블과 연결되고 테이블을 스캔하여 데이터 프로파일링 결과를 생성합니다. 데이터 프로파일링 스캔은 여러 구성 옵션을 지원합니다.
구성 옵션
이 섹션에서는 데이터 프로파일링 스캔을 실행하는 데 사용할 수 있는 구성 옵션을 설명합니다.
예약 옵션
API 또는 Google Cloud 콘솔을 통해 정의된 빈도 또는 주문형으로 데이터 프로필 스캔을 예약할 수 있습니다.
범위
데이터 프로파일링 스캔 사양의 일부로 작업 범위를 다음 옵션 중 하나로 지정할 수 있습니다.
전체 테이블: 데이터 프로파일링 스캔에서 전체 테이블이 스캔됩니다.
샘플링, 행 필터, 열 필터는 프로파일링 통계를 계산하기 전에 전체 테이블에 적용됩니다.
증분: 지정된 증분 데이터가 데이터 프로필 스캔에서 스캔됩니다. 증분으로 사용할 테이블의 Date 또는 Timestamp 열을 지정합니다. 일반적으로 이 테이블은 테이블의 파티션을 나눈 열입니다. 샘플링, 행 필터, 열 필터는 프로파일링 통계를 계산하기 전에 증분 데이터에 적용됩니다.
데이터 필터링
행 필터와 열 필터를 사용하여 프로파일링을 위해 스캔할 데이터를 필터링할 수 있습니다. 필터를 사용하면 실행 시간과 비용을 줄이고 민감하거나 유용하지 않은 데이터를 제외할 수 있습니다.
행 필터: 행 필터를 사용하면 특정 기간 또는 특정 세그먼트(예: 리전)의 데이터에 집중할 수 있습니다. 예를 들어 특정 날짜 이전의 타임스탬프를 사용하여 데이터를 필터링할 수 있습니다.
열 필터: 열 필터를 사용하면 데이터 프로파일링 스캔을 실행할 테이블에서 특정 열을 포함하거나 제외할 수 있습니다.
샘플 데이터
Dataplex Universal Catalog를 사용하면 데이터 프로필 스캔을 실행하기 위해 데이터에서 샘플링할 레코드의 비율을 지정할 수 있습니다. 더 작은 데이터 샘플에 데이터 프로파일링 스캔을 만들면 전체 데이터 세트 쿼리 실행 시간과 비용을 줄일 수 있습니다.
여러 데이터 프로파일링 스캔
Dataplex Universal Catalog를 사용하면 Google Cloud 콘솔을 사용하여 한 번에 여러 데이터 프로필 스캔을 만들 수 있습니다. 데이터 세트 하나에서 최대 100개의 테이블을 선택하고 각 데이터 세트에 데이터 프로파일링 스캔을 만들 수 있습니다. 자세히 알아보기
BigQuery 테이블로 스캔 결과 내보내기
추가 분석을 위해 데이터 프로파일링 스캔 결과를 BigQuery 테이블로 내보낼 수 있습니다. 보고를 맞춤설정하려면 BigQuery 테이블 데이터를 Looker 대시보드에 연결하면 됩니다. 여러 스캔에서 동일한 결과 테이블을 사용하여 집계 보고서를 빌드할 수 있습니다.
데이터 프로파일링 결과
데이터 프로파일링 결과에는 다음 값이 포함됩니다.
열 유형
데이터 프로파일링 결과
숫자 열
null 값의 비율.
대략적인 고윳값(별개의 값)의 백분율입니다.
열의 최빈값 상위 10개. 열의 고유 값 수가 10개 미만이면 10개 미만일 수 있습니다(null 값은 포함되지 않음). 최빈값 각각에 대해 현재 스캔된 데이터에서 어커런스 백분율도 표시됩니다.
평균, 표준 편차, 최솟값, 근사치 하위 사분위수, 근사치 중앙값, 근사치 상위 사분위수, 최댓값.
문자열 열
null 값의 비율.
대략적인 고윳값(별개의 값)의 백분율입니다.
열의 최빈값 상위 10개. 열의 고유 값 수가 10개 미만이면 10 미만일 수 있습니다.
문자열의 평균 길이, 최소 길이, 최대 길이.
중첩되지 않은 기타 열(날짜, 시간, 타임스탬프, 바이너리 등)
null 값의 비율.
대략적인 고윳값(별개의 값)의 백분율입니다.
열의 최빈값 상위 10개. 열의 고유 값 수가 10개 미만이면 10 미만일 수 있습니다.
다른 모든 중첩 또는 복합 데이터 유형 열(예: 레코드, 배열, JSON) 또는 반복 모드가 사용된 모든 열.
null 값의 비율.
모든 실행에서 스캔된 레코드 수가 결과에 포함됩니다.
보고 및 모니터링
다음 보고서 및 메서드를 사용하여 데이터 프로파일링 결과를 모니터링하고 분석할 수 있습니다.
BigQuery 및 Dataplex Universal Catalog 페이지에서 소스 테이블과 함께 게시된 보고서
Google Cloud 콘솔의 BigQuery 및 Dataplex Universal Catalog 페이지에 결과를 게시하도록 데이터 프로필 스캔을 구성한 경우 모든 프로젝트의 데이터 프로필 탭에서 해당 페이지의 최신 데이터 프로필 스캔 결과를 볼 수 있습니다.
Dataplex Universal Catalog의 작업별 기록 보고서
Dataplex Universal Catalog 프로필 페이지에서 최신 및 이전 작업에 대한 세부 보고서를 볼 수 있습니다. 여기에는 열 수준 프로필 정보와 사용된 구성이 포함됩니다.
분석 탭
Dataplex Universal Catalog 프로필 페이지에서 분석 탭을 사용하면 여러 프로필 작업에 대한 특정 열 통계의 추세를 볼 수 있습니다. 예를 들어 증분 스캔이 있으면 시간 경과에 따른 값의 평균 추세를 확인할 수 있습니다.
자체 대시보드 또는 분석 빌드
결과를 BigQuery 테이블로 내보내거나 저장하도록 데이터 프로파일링 스캔을 구성한 경우 Looker Studio와 같은 도구를 사용하여 자체 대시보드를 빌드할 수 있습니다.
제한사항
데이터 프로파일링은 BIGNUMERIC을 제외한 모든 열 유형의 BigQuery 테이블에 지원됩니다. BIGNUMERIC 열이 있는 테이블에 대한 스캔을 만들면 검증 오류가 발생하고 생성에 실패합니다.
가격 책정
Dataplex Universal Catalog는 프리미엄 처리 SKU를 사용하여 데이터 프로필 요금을 청구합니다. 자세한 내용은 가격 책정을 참조하세요.
데이터 프로필을 위한 Dataplex Universal Catalog 프리미엄 처리 요금은 초 단위로 청구되며 최소 시간은 1분입니다.
실패한 프로파일링 스캔에는 요금이 청구되지 않습니다.
요금은 행 수, 열 수, 스캔되는 데이터 양, 테이블의 파티션 나누기 및 클러스터링 설정, 스캔 빈도에 따라 달라집니다.
데이터 프로파일링 스캔 비용을 줄일 수 있는 다음과 같은 몇 가지 옵션이 있습니다.
샘플링
증분 스캔
열 필터링
행 필터링
Cloud Billing 보고서에서 데이터 프로필 요금을 Dataplex Universal Catalog 프리미엄 처리 SKU의 다른 요금으로부터 구분하려면 goog-dataplex-workload-type 라벨에 DATA_PROFILE 값을 사용합니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-07-31(UTC)"],[[["\u003cp\u003eDataplex data profiling identifies statistical characteristics of BigQuery table columns, such as data distribution and null counts, to enhance data understanding and analysis.\u003c/p\u003e\n"],["\u003cp\u003eData profiling scans can be configured for full or incremental table analysis, allowing for the specification of row and column filters to optimize execution time and cost.\u003c/p\u003e\n"],["\u003cp\u003eScan results provide insights like null value percentages, unique value counts, top common values, and statistical measures like average and standard deviation for various column types.\u003c/p\u003e\n"],["\u003cp\u003eDataplex enables the export of scan results to BigQuery tables, integration with Looker for custom reporting, and detailed monitoring of profile jobs.\u003c/p\u003e\n"],["\u003cp\u003eData profiling scans are charged via the premium processing SKU, and can be optimized for cost reduction via methods like sampling, incremental scans, and using filters.\u003c/p\u003e\n"]]],[],null,["# About data profiling\n\nDataplex Universal Catalog data profiling lets you identify common\nstatistical characteristics of the columns in your BigQuery\ntables. This information helps you to understand and analyze your data\nmore effectively.\n\nInformation like typical data values, data distribution, and null counts can\naccelerate analysis. When combined with data classification, data profiling can\ndetect data classes or sensitive information that, in turn, can enable access\ncontrol policies.\n\nDataplex Universal Catalog also uses this information to\n[recommend rules for data quality checks](/dataplex/docs/auto-data-quality-overview).\n\nConceptual model\n----------------\n\nDataplex Universal Catalog lets you better understand the profile of your data by\ncreating a data profile scan.\n\nThe following diagram shows how Dataplex Universal Catalog scans data to report on\nstatistical characteristics.\n\nA data profile scan is associated with one BigQuery table\nand scans the table to generate the data profiling results. A data profile\nscan supports several [configuration options](#configuration-options).\n| **Note:** Dataplex Universal Catalog runs scans on resources in a Google tenant project, so you don't need to set up your own infrastructure.\n\nConfiguration options\n---------------------\n\nThis section describes the configuration options available for running\ndata profile scans.\n\n### Scheduling options\n\nYou can schedule a data profile scan with a defined frequency, or run the scan\non demand.\n\n### Scope\n\nYou can specify the scope of the data to scan:\n\n- **Full table**: The entire table is scanned in the data profile scan.\n Sampling, row filters, and column filters are applied on the entire table\n before calculating the profiling statistics.\n\n- **Incremental** : Incremental data that you specify is scanned in the data\n profile scan. Specify a `Date` or `Timestamp` column in the table to be\n used as an increment. Typically, this is the column on which the table is\n partitioned. Sampling, row filters, and column filters are applied on the\n incremental data before calculating the profiling statistics.\n\n### Filter data\n\nYou can filter data to be scanned for profiling by using row filters and\ncolumn filters. Using filters helps you reduce the run time and cost,\nand exclude sensitive and unuseful data.\n\n- **Row filters**: Row filters let you focus on data within a specific time\n period or from a specific segment, such as region. For example, you can filter\n out data with a timestamp before a certain date.\n\n- **Column filters**: Column filters lets you include and exclude specific\n columns from your table to run the data profile scan.\n\n### Sample data\n\nYou can specify a percentage of records from your data\nto sample for running a data profile scan. Creating data profile scans on a\nsmaller sample of data can reduce the run time and cost of querying the entire dataset.\n\nMultiple data profile scans\n---------------------------\n\nYou can create multiple data profile scans at a time\nusing the Google Cloud console. You can select up to 100 tables from one dataset\nand create a data profile scan for each dataset. For more information, see\n[Create multiple data profile scans](/dataplex/docs/use-data-profiling#multiple-scans).\n\n### Export scan results to a BigQuery table\n\nYou can export the data profile scan results to a BigQuery table\nfor further analysis. To customize reporting, you can connect the\nBigQuery table data to a Looker dashboard. You can\nbuild an aggregated report by using the same results table across multiple scans.\n\nData profiling results\n----------------------\n\nThe data profiling results include the following values:\n\nThe results include the number of records scanned in every job.\n| **Note:** Approximate values might differ from the actual values by 1-2% for performance improvement.\n\nReporting and monitoring\n------------------------\n\nYou can monitor and analyze the data profiling results using the following\nreports and methods:\n\n- **Reports published with the source table in the BigQuery and Dataplex Universal Catalog pages**\n\n If you have configured a data profile scan to publish the results in the\n BigQuery and Dataplex Universal Catalog pages in the\n Google Cloud console, then you can view the latest data profile scan\n results on these pages, on the source table's **Data profile** tab, from any project.\n\n- **Historical, per job report**\n\n On the **Data profiling \\& quality \\\u003e Data profile scan** page in\n Dataplex Universal Catalog and BigQuery, you can view the\n detailed reports for the latest and historical jobs. This\n includes column-level profile information and the configuration that was used.\n\n- **Analysis tab**\n\n On the **Data profiling \\& quality \\\u003e Data profile scan** page in\n Dataplex Universal Catalog and BigQuery, you can use the **Analysis**\n tab to view the trends for a given statistic of a column over multiple\n profile jobs. For example, if you have an incremental scan, you can view how\n the average of a value has been trending over time.\n\n- **Build your own dashboard or analytics**\n\n If you have configured a data profile scan to export results to a\n BigQuery table, then you can build your own dashboards using\n tools, such as Looker Studio.\n\nLimitations\n-----------\n\n- Data profiling is supported for BigQuery tables with all column types except `BIGNUMERIC`. A scan created for a table with a `BIGNUMERIC` column results in a validation error and isn't successfully created.\n\nPricing\n-------\n\n- Dataplex Universal Catalog uses the premium processing SKU to charge for data\n profiling. For more information, see [Pricing](/dataplex/pricing).\n\n- Dataplex Universal Catalog premium processing for data profiling is billed per\n second with a one-minute minimum.\n\n- You aren't charged for failed data profile scans.\n\n- The charge depends on the number of rows, numbers of columns, the amount of\n data scanned, partitioning and clustering settings on the table, and the\n frequency of the scan.\n\n- There are several options to reduce the cost of data profile scans:\n\n - Sampling\n - Incremental scans\n - Column filtering\n - Row filtering\n- To separate data profiling charges from other charges in Dataplex Universal Catalog\n premium processing SKU, on the\n [Cloud Billing report](/billing/docs/how-to/reports), use the label\n `goog-dataplex-workload-type` with value `DATA_PROFILE`.\n\n- To filter aggregate charges, use the following labels:\n\n - `goog-dataplex-datascan-data-source-dataplex-entity`\n - `goog-dataplex-datascan-data-source-dataplex-lake`\n - `goog-dataplex-datascan-data-source-dataplex-zone`\n - `goog-dataplex-datascan-data-source-project`\n - `goog-dataplex-datascan-data-source-region`\n - `goog-dataplex-datascan-id`\n - `goog-dataplex-datascan-job-id`\n\nWhat's next?\n------------\n\n- Learn how to [use data profiling](/dataplex/docs/use-data-profiling).\n- Learn about [auto data quality](/dataplex/docs/auto-data-quality-overview).\n- Learn how to [use auto data quality](/dataplex/docs/use-auto-data-quality).\n- Learn how to [explore your data by generating data insights](/bigquery/docs/data-insights)."]]