이 페이지는 Cloud Translation API를 통해 번역되었습니다.

BigQuery에서 데이터 인사이트 생성

데이터 인사이트는 데이터를 탐색, 이해, 선별하는 자동화된 방법입니다. 데이터 통계를 통해 BigQuery의 Gemini는 테이블 메타데이터를 기반으로 자연어 질문과 이에 답변하는 SQL 쿼리를 생성합니다. 이러한 통계를 통해 패턴을 파악하고, 데이터 품질을 평가하고, 통계 분석을 수행할 수 있습니다.

데이터 인사이트를 사용하여 테이블 메타데이터를 기반으로 테이블 및 열 설명을 생성할 수도 있습니다. 이 기능을 사용하면 의미 있는 분석을 위해 데이터를 문서화하고 데이터 세트 검색 가능성을 개선할 수 있습니다.

이 페이지에서는 데이터 인사이트의 주요 기능과 유용한 데이터 탐색을 위해 쿼리 생성을 자동화하는 프로세스를 설명합니다.

시작하기 전에

데이터 인사이트는 BigQuery의 Gemini를 사용하여 생성됩니다. 통계 생성을 시작하려면 먼저 BigQuery의 Gemini를 설정해야 합니다.

필요한 역할

데이터 인사이트를 생성, 관리, 검색하려면 관리자에게 다음 IAM 역할을 부여해 달라고 요청하세요.

통계를 생성할 프로젝트에 대한 Dataplex DataScan 편집자(roles/dataplex.dataScanEditor) 또는 Dataplex DataScan 관리자(roles/dataplex.dataScanAdmin)
통계를 생성할 BigQuery 테이블에 대한 BigQuery 데이터 뷰어(roles/bigquery.dataViewer)
통계를 생성할 BigQuery 테이블에 대한 BigQuery 데이터 편집자(roles/bigquery.dataEditor)
통계를 생성할 프로젝트에 대한 BigQuery 사용자(roles/bigquery.user) 또는 BigQuery Studio 사용자(roles/bigquery.studioUser)

생성된 통계에 대한 읽기 전용 액세스 권한을 얻으려면 관리자에게 다음 IAM 역할을 부여해 달라고 요청하세요.

통계를 보려는 BigQuery 테이블이 포함된 프로젝트에 대한 Dataplex DataScan DataViewer(roles/dataplex.dataScanDataViewer)

역할 부여에 대한 상세 설명은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.

커스텀 역할 또는 기타 사전 정의된 역할을 통해 필요한 권한을 얻을 수도 있습니다. 통계를 생성하는 데 필요한 정확한 권한을 보려면 필수 권한 섹션을 펼치세요.

필수 권한

bigquery.jobs.create
bigquery.tables.get
bigquery.tables.getData
dataplex.datascans.create
dataplex.datascans.get
dataplex.datascans.getData
dataplex.datascans.run

API 사용 설정

데이터 통계를 사용하려면 프로젝트에서 Dataplex API, BigQuery API, Gemini for Google Cloud API를 사용 설정합니다.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Gemini for Google Cloud API 사용 설정에 대한 자세한 내용은 Google Cloud 프로젝트에서 Gemini for Google Cloud API 사용 설정을 참고하세요.

데이터 인사이트 정보

데이터 분석가는 익숙하지 않은 새 테이블을 탐색할 때 콜드 스타트 문제에 직면하는 경우가 많습니다. 이 문제에는 데이터 구조, 주요 패턴, 데이터의 관련 정보에 대한 불확실성이 포함되는 경우가 많아 쿼리 작성을 시작하기 어렵습니다.

데이터 인사이트는 테이블의 메타데이터를 기반으로 자연어 쿼리와 이에 상응하는 SQL을 자동으로 생성하여 콜드 스타트 문제를 해결합니다. 빈 쿼리 편집기로 시작하는 대신 가치 있는 통계를 제공하는 의미 있는 쿼리로 데이터 탐색을 빠르게 시작할 수 있습니다. 자세히 조사하려면 데이터 캔버스에서 후속 질문을 할 수 있습니다.

통계 실행의 예

다음 메타데이터가 포함된 telco_churn이라는 테이블이 있다고 가정해보겠습니다.

필드 이름	유형
CustomerID	`STRING`
성별	`STRING`
Tenure	`INT64`
InternetService	`STRING`
StreamingTV	`STRING`
OnlineBackup	`STRING`
계약	`STRING`
TechSupport	`STRING`
PaymentMethod	`STRING`
MonthlyCharges	`FLOAT`
Churn	`BOOLEAN`

다음은 데이터 인사이트가 이 테이블에 대해 생성하는 몇 가지 샘플 쿼리입니다.

모든 프리미엄 서비스를 구독하고 50개월 넘게 고객으로 등록된 이력이 있는 고객을 식별합니다.

SELECT
  CustomerID,
  Contract,
  Tenure
FROM
  agentville_datasets.telco_churn
WHERE
  OnlineBackup = 'Yes'
  AND TechSupport = 'Yes'
  AND StreamingTV = 'Yes'
  AND Tenure > 50;

고객 이탈이 가장 많은 인터넷 서비스를 파악합니다.

SELECT
  InternetService,
  COUNT(DISTINCT CustomerID) AS total_customers
FROM
  agentville_datasets.telco_churn
WHERE
  Churn = TRUE
GROUP BY
  InternetService
ORDER BY
  total_customers DESC
LIMIT 1;

가치가 높은 고객의 세그먼트별 이탈률을 파악합니다.

SELECT
  Contract,
  InternetService,
  Gender,
  PaymentMethod,
  COUNT(DISTINCT CustomerID) AS total_customers,
  SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
  (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
  * 100 AS churn_rate
FROM
  agentville_datasets.telco_churn
WHERE
  MonthlyCharges > 100
GROUP BY
  Contract,
  InternetService,
  Gender,
  PaymentMethod;

생성된 통계를 개선하기 위한 권장사항

생성된 통계의 정확성을 개선하려면 다음 권장사항을 따르세요.

통계를 데이터 프로파일링 결과에 그라운딩

생성형 AI에서 그라운딩은 모델 출력을 확인 가능한 정보 소스에 연결하는 기능입니다. 생성된 통계를 데이터 프로파일링 결과에 그라운딩할 수 있습니다. 데이터 프로파일링은 BigQuery 테이블의 열을 분석하고 일반적인 데이터 값, 데이터 분포와 같은 일반적인 통계적 특성을 식별합니다. 테이블에 데이터 프로파일링 스캔을 만들 때 스캔 결과를 Google Cloud 콘솔의 BigQuery 및 Dataplex Universal Catalog 페이지에 게시할 수 있습니다. BigQuery는 데이터 프로파일링 결과를 사용하여 다음과 같은 방식으로 더 정확하고 관련성 높은 쿼리를 만듭니다.

데이터 프로파일링 결과를 분석하여 데이터에서 흥미로운 패턴, 추세 또는 이상점을 식별합니다.
유용한 정보를 얻기 위해 이러한 패턴, 트렌드, 이상점에 초점을 맞춘 쿼리를 생성합니다.
생성된 쿼리가 데이터 프로파일링 결과에 대해 유효한지 검증하여 쿼리가 유의미한 결과를 반환하는지 확인합니다.

데이터 프로파일링 스캔을 사용하지 않으면 다음과 같은 일이 발생합니다.

생성된 쿼리는 부정확한 절을 포함하거나 의미 없는 결과를 생성할 가능성이 더 큽니다.
생성된 열 설명은 열 이름만을 기반으로 합니다.

테이블의 데이터 프로파일링 스캔이 최신 상태이고 결과가 BigQuery에 게시되어 있는지 확인합니다.

데이터 프로파일링 설정을 조정하여 샘플링 크기를 늘리고 행과 열을 필터링할 수 있습니다. 새 데이터 프로파일링 스캔을 실행한 후 통계를 다시 생성합니다.

테이블 설명 추가

테이블에서 분석하려는 항목을 설명하는 자세한 테이블 설명을 제공하면 BigQuery의 Gemini에서 더 관련성 높은 통계를 생성하는 데 도움이 됩니다. 테이블 설명을 추가한 후 통계를 다시 생성합니다.

예를 들어 telco_churn 테이블에 다음 설명을 추가할 수 있습니다. '이 표는 구독 세부정보, 가입 기간, 서비스 사용량을 비롯한 고객 이탈 데이터를 추적하여 고객 이탈 행동을 예측합니다.'

Gemini에서 생성한 테이블 설명을 저장하면 이 설명을 사용하여 향후 통계를 생성합니다.

열 설명 추가

각 열의 의미나 한 열과 다른 열의 관계를 설명하는 열 설명을 추가하면 통계 품질을 개선할 수 있습니다. 테이블에서 열 설명을 업데이트한 후 통계를 다시 생성합니다.

예를 들어 telco_churn 테이블의 특정 열에 다음 설명을 추가할 수 있습니다.

Tenure: '고객이 서비스를 이용한 기간(개월)입니다.'
Churn: '고객이 서비스를 중단했는지 여부입니다. TRUE는 고객이 더 이상 서비스를 사용하지 않음을 나타내고 FALSE는 고객이 활성 상태임을 나타냅니다.'

Gemini에서 생성한 열 설명을 저장하면 이러한 설명을 사용하여 향후 통계를 생성합니다.

BigQuery 테이블의 통계 생성

BigQuery 테이블의 통계를 생성하려면 BigQuery Studio를 사용하여 BigQuery의 테이블 항목에 액세스해야 합니다.

Google Cloud 콘솔에서 BigQuery Studio로 이동합니다.

BigQuery Studio로 이동
왼쪽 창에서 탐색기를 클릭합니다.

왼쪽 창이 표시되지 않으면 왼쪽 창 펼치기를 클릭하여 창을 엽니다.
탐색기 창에서 데이터 세트를 클릭한 후 데이터 세트를 선택합니다.
개요 > 표를 클릭한 다음 통계를 생성할 표를 선택합니다.
통계 탭을 클릭합니다. 탭이 비어 있는 경우 이 테이블의 통계가 아직 생성되지 않았음을 의미합니다.
통계 파이프라인을 트리거하려면 통계 생성을 클릭합니다.

통계가 채워지는 데 몇 분 정도 걸립니다.

테이블에 대해 게시된 데이터 프로파일링 결과를 사용할 수 있으면 이 결과를 사용하여 통계를 생성합니다. 그렇지 않으면 열 이름과 설명을 기반으로 통계가 생성됩니다.
통계 탭에서 생성된 자연어 질문을 살펴봅니다.
질문에 답하는 SQL 쿼리를 보려면 질문을 클릭합니다.
BigQuery에서 쿼리를 열려면 쿼리로 복사를 클릭합니다.
후속 질문을 하려면 다음 단계를 따르세요.
1. 이어서 질문하기를 클릭합니다. 쿼리가 새 데이터 캔버스에서 열립니다.
2. 실행을 클릭한 다음 결과 쿼리를 클릭합니다.
3. 후속 질문을 하려면 자연어 프롬프트 필드에 프롬프트를 입력하거나 쿼리 편집기에서 SQL을 수정합니다.
새로운 쿼리 세트를 생성하려면 통계 생성을 클릭하고 파이프라인을 다시 트리거합니다.

테이블에 대해 통계를 생성한 후에는 dataplex.datascans.getData 권한과 테이블에 대한 액세스 권한이 있는 모든 사용자가 이러한 통계를 볼 수 있습니다.

BigQuery 외부 테이블의 통계 생성

BigQuery 데이터 인사이트는 Cloud Storage의 데이터로 BigQuery 외부 테이블에 대한 통계 생성을 지원합니다. 사용자와 현재 프로젝트의 Dataplex Universal Catalog 서비스 계정에는 데이터가 포함된 Cloud Storage 버킷에 대한 스토리지 객체 뷰어(roles/storage.objectViewer) 역할이 있어야 합니다. 자세한 내용은 버킷 수준 정책에 주 구성원 추가를 참조하세요.

BigQuery 외부 테이블에 대한 통계를 생성하려면 이 문서의 BigQuery 테이블의 통계 생성 섹션에 설명된 안내를 따르세요.

BigLake 테이블의 통계 생성

BigLake 테이블에 대한 통계를 생성하려면 다음 단계를 수행하세요.

프로젝트에 대해 BigQuery Connection API를 사용 설정합니다.

BigQuery Connection API 사용 설정
BigQuery 연결을 만듭니다. 자세한 내용은 연결 관리를 참조하세요.
생성된 BigQuery 연결에 해당하는 서비스 계정에 스토리지 객체 뷰어(roles/storage.objectViewer) IAM 역할을 부여합니다.

연결 세부정보에서 서비스 계정 ID를 검색할 수 있습니다.
통계를 생성하려면 이 문서의 BigQuery 테이블의 통계 생성 섹션에 설명된 안내를 따르세요.

테이블 및 열 설명 생성

데이터 인사이트를 생성하면 BigQuery의 Gemini에서 테이블 및 열 설명을 자동으로 생성합니다. 필요에 따라 이러한 설명을 수정한 후 테이블의 메타데이터에 저장할 수 있습니다. 저장된 설명은 향후 통계를 생성하는 데 사용됩니다.

테이블 및 열 설명을 생성하려면 다음 단계를 따르세요.

이 문서의 관련 섹션에 설명된 안내에 따라 통계를 생성합니다.
스키마 탭을 클릭합니다.
열 설명 보기를 클릭합니다.

참고: 열 설명 보기 버튼이 표시되지 않으면 데이터 설명을 클릭합니다. 이 버튼을 보려면 스크롤해야 할 수도 있습니다.

생성된 테이블 설명과 열 설명이 표시됩니다.
생성된 표 설명을 수정하고 저장하려면 다음 단계를 따르세요.
1. 표 설명 섹션에서 세부정보에 저장을 클릭합니다.
2. 생성된 설명으로 현재 설명을 바꾸려면 추천 설명 복사를 클릭합니다.
3. 필요에 따라 테이블 설명을 수정한 후 세부정보에 저장을 클릭합니다.
  
  표 설명이 즉시 업데이트됩니다.
생성된 열 설명을 수정하고 저장하려면 다음 단계를 따르세요.
1. 열 설명 섹션에서 스키마에 저장을 클릭합니다.
  
  생성된 열 설명은 각 열의 새 설명 필드에 채워집니다.
2. 필요에 따라 열 설명을 수정한 다음 저장을 클릭합니다.
  
  열 설명은 즉시 업데이트됩니다.
미리보기 패널을 닫으려면 닫기를 클릭합니다.

가격 책정

이 기능의 가격 책정에 관한 자세한 내용은 BigQuery의 Gemini 가격 책정 개요를 참고하세요.

할당량 및 한도

이 기능의 할당량 및 한도에 대한 자세한 내용은 BigQuery의 Gemini 할당량을 참조하세요.

제한사항

BigQuery 테이블, BigLake 테이블, 외부 테이블, 뷰에 대한 데이터 인사이트를 사용할 수 있습니다.
멀티 클라우드 고객은 다른 클라우드의 데이터를 사용할 수 없습니다.
데이터 인사이트는 Geo 또는 JSON 열 유형을 지원하지 않습니다.
통계를 실행할 때마다 매번 쿼리가 표시되는 것은 아닙니다. 보다 흥미로운 쿼리를 생성할 가능성을 높이려면 통계 파이프라인을 다시 시작하세요.
열 수준 액세스 제어(ACL)와 제한된 사용자 권한이 있는 테이블의 경우 테이블의 모든 열에 대한 읽기 액세스 권한이 있으면 통계를 생성할 수 있습니다. 생성된 쿼리를 실행하려면 충분한 권한이 있어야 합니다.
테이블의 최대 350개 열에 대한 열 설명이 생성됩니다.

위치

모든 BigQuery 위치에서 데이터 인사이트를 사용할 수 있습니다. BigQuery의 Gemini는 전역적으로 작동하므로 데이터 처리를 특정 리전으로 제한할 수 없습니다. BigQuery의 Gemini에서 데이터를 처리하는 위치에 대한 자세한 내용은 Gemini 제공 위치를 참고하세요.

다음 단계

Dataplex Universal Catalog 데이터 프로파일링 자세히 알아보기
BigQuery에서 Gemini 지원을 사용하여 쿼리를 작성하는 방법 알아보기
BigQuery의 Gemini 자세히 알아보기
데이터 캔버스를 사용하여 자연어 질문으로 쿼리 결과를 반복하는 방법을 알아봅니다.