승인된 뷰 만들기

BigQuery는 방대한 양의 데이터에 걸쳐 거의 실시간으로 SQL 쿼리를 실행하는 데 사용할 수 있는 페타바이트 규모의 분석 데이터 웨어하우스입니다.

데이터세트에 대한 뷰 액세스 권한 부여는 BigQuery에서 승인된 뷰 생성이라고도 합니다. 승인된 뷰를 사용하면 기본 테이블에 대한 액세스 권한을 부여하지 않고도 특정 사용자 및 그룹과 쿼리 결과를 공유할 수 있습니다. 뷰의 SQL 쿼리를 사용하여 사용자가 쿼리할 수 있는 열(필드)을 제한할 수도 있습니다. 이 가이드에서는 승인된 뷰를 만들어 보겠습니다.

목표

이 가이드의 목표는 다음과 같습니다.

  • 데이터세트를 만들고 데이터세트에 액세스 제어 적용
  • 프로젝트에 액세스 제어 할당
  • 사용자가 쿼리할 수 있는 데이터를 제한하는 승인된 뷰 만들기

비용

BigQuery는 유료 제품이며 이 가이드에서는 BigQuery 사용 비용이 청구됩니다. BigQuery 쿼리 가격 책정에 따라 매월 1TB까지는 무료입니다. 자세한 내용은 가격 책정 페이지를 참조하세요.

시작하기 전에

이 가이드를 시작하기 전에 Google Cloud Platform Console을 사용하여 프로젝트를 만들거나 선택합니다.

  1. Google 계정에 로그인합니다.

    아직 계정이 없으면 새 계정을 등록하세요.

  2. Google Cloud Platform 프로젝트를 선택하거나 만듭니다.

    리소스 관리 페이지로 이동

  3. BigQuery는 새 프로젝트에서 자동으로 사용 설정됩니다. 기존 프로젝트에서 BigQuery를 활성화하려면 BigQuery API를 사용 설정합니다.

    API 사용 설정

    로 이동합니다.
  4. 프로젝트에 신용 카드를 제공하지 않거나 결제를 사용 설정하지 않으려면 BigQuery에서 제공하는 샌드박스를 사용합니다. 이 주제의 단계는 프로젝트에 결제가 사용 설정되었는지 여부에 관계없이 프로젝트에 적용됩니다. 필요에 따라 결제를 사용 설정하려면 결제를 사용 설정하는 방법 알아보기를 참조하세요.

소개

이 가이드에서는 소스 데이터용 데이터세트 한 개와 승인된 뷰용 두 번째 데이터세트를 만듭니다. 소스 데이터세트를 GitHub 공개 데이터세트의 데이터로 채웁니다. 그런 다음 소스 데이터세트에서 테이블을 쿼리하는 뷰를 만듭니다.

데이터세트와 뷰를 만든 후 프로젝트, 뷰가 포함된 데이터세트, 소스 데이터가 포함된 데이터세트에 액세스 제어 권한을 할당합니다.

소스 데이터세트에 대한 액세스 권한을 뷰에 부여하는 것도 승인된 뷰 만들기라고 합니다. 승인된 뷰를 만들 때는 다음 단계에 따르세요.

  • 뷰를 저장할 별도의 데이터세트 만들기
  • 새 데이터세트에 뷰 만들기
  • 프로젝트에 액세스 제어 할당
  • 뷰가 포함된 데이터세트에 액세스 제어 할당
  • 뷰가 소스 데이터세트에 액세스하는 것을 승인

소스 데이터세트 만들기

먼저 소스 데이터를 저장할 데이터세트를 만듭니다. 이 가이드에서는 GitHub 공개 데이터세트를 쿼리하여 소스 데이터세트의 테이블을 채웁니다. 소스 데이터세트의 데이터에는 데이터 분석가에게 보이고 싶지 않은 정보가 포함되어 있습니다. 승인된 뷰를 사용하여 데이터에 대한 액세스를 제한할 수 있습니다.

소스 데이터세트를 만들려면 다음 안내를 따르세요.

콘솔

  1. GCP Console에서 BigQuery 웹 UI를 엽니다.
    GCP Console로 이동

  2. 탐색 패널의 리소스 섹션에서 프로젝트를 선택하고 데이터세트 만들기를 클릭합니다.

  3. 데이터세트 IDgithub_source_data를 입력합니다.

  4. 다른 모든 기본 설정을 그대로 놔두고 데이터세트 만들기를 클릭합니다.

Python

이 샘플을 시도하기 전에 BigQuery 빠른 시작: 클라이언트 라이브러리 사용의 Python 설정 안내를 따르세요. 자세한 내용은 BigQuery Python API 참조 문서를 확인하세요.

from google.cloud import bigquery

client = bigquery.Client()
source_dataset_id = 'github_source_data'

source_dataset = bigquery.Dataset(client.dataset(source_dataset_id))
# Specify the geographic location where the dataset should reside.
source_dataset.location = 'US'
source_dataset = client.create_dataset(source_dataset)  # API request

소스 데이터세트를 만든 후 SQL 쿼리를 사용하여 테이블을 채웁니다. 이 쿼리는 GitHub 공개 데이터세트에서 데이터를 검색합니다.

콘솔

  1. GCP Console에서 BigQuery 웹 UI를 엽니다.
    GCP Console로 이동

  2. 새 쿼리 작성을 클릭합니다.

  3. 다음 쿼리를 복사하여 쿼리 편집기 텍스트 영역에 붙여 넣습니다.

    SELECT
      commit,
      author,
      committer,
      repo_name
    FROM
      `bigquery-public-data.github_repos.commits`
    LIMIT
      1000
    
  4. 더보기를 클릭하고 쿼리 설정을 선택합니다.

  5. 대상에서 쿼리 결과의 대상 테이블 설정 체크박스를 선택합니다.

    • 프로젝트 이름에서 프로젝트가 선택되었는지 확인합니다.
    • 데이터세트 이름에서 github_source_data가 선택되었는지 확인합니다.
    • 테이블 이름github_contributors를 입력합니다.
    • 저장을 클릭합니다.

  6. 실행을 클릭합니다.

  7. 쿼리가 완료되면 github_contributors를 클릭한 후 미리보기를 클릭하여 데이터가 테이블에 기록되었는지 확인합니다.

Python

이 샘플을 시도하기 전에 BigQuery 빠른 시작: 클라이언트 라이브러리 사용의 Python 설정 안내를 따르세요. 자세한 내용은 BigQuery Python API 참조 문서를 확인하세요.

source_table_id = 'github_contributors'
job_config = bigquery.QueryJobConfig()
job_config.destination = source_dataset.table(source_table_id)
sql = """
    SELECT commit, author, committer, repo_name
    FROM `bigquery-public-data.github_repos.commits`
    LIMIT 1000
"""
query_job = client.query(
    sql,
    # Location must match that of the dataset(s) referenced in the query
    # and of the destination table.
    location='US',
    job_config=job_config)  # API request - starts the query

query_job.result()  # Waits for the query to finish

뷰를 저장할 별도의 데이터세트 만들기

소스 데이터세트를 만든 다음 데이터 분석가에게 공유할 뷰를 저장할 새 데이터세트를 만듭니다. 이 뷰는 소스 데이터세트의 데이터에 액세스하게 됩니다. 데이터 분석가는 소스 데이터가 아닌 뷰에 액세스하게 됩니다.

뷰를 만들 때는 뷰가 쿼리하는 소스 데이터와 분리된 데이터세트에 만들어야 합니다. 데이터세트 수준에서만 액세스 제어를 할당할 수 있으므로 소스 데이터와 같은 데이터세트에 뷰를 만들면 데이터 분석가가 뷰와 데이터에 모두 액세스하게 됩니다.

뷰를 저장할 데이터세트를 만들려면 다음 안내를 따르세요.

콘솔

  1. GCP Console에서 BigQuery 웹 UI를 엽니다.
    GCP Console로 이동

  2. 탐색 패널의 리소스 섹션에서 프로젝트를 선택하고 데이터세트 만들기를 클릭합니다.

  3. 데이터세트 IDshared_views를 입력합니다.

  4. 다른 모든 기본 설정을 그대로 놔두고 데이터세트 만들기를 클릭합니다.

Python

이 샘플을 시도하기 전에 BigQuery 빠른 시작: 클라이언트 라이브러리 사용의 Python 설정 안내를 따르세요. 자세한 내용은 BigQuery Python API 참조 문서를 확인하세요.

shared_dataset_id = 'shared_views'
shared_dataset = bigquery.Dataset(client.dataset(shared_dataset_id))
shared_dataset.location = 'US'
shared_dataset = client.create_dataset(shared_dataset)  # API request

새 데이터세트에 뷰 만들기

새 데이터세트에서 승인하려는 뷰를 만듭니다. 이 뷰는 데이터 분석가에게 공유하는 것으로, 데이터 분석가에게 보이고 싶지 않은 열을 제외하는 SQL 쿼리를 사용하여 만듭니다.

이 가이드의 경우, 공유한 뷰는 작성한 사람의 이름을 제외한 작성한 사람의 모든 정보와 커밋한 사람의 이름을 제외한 커밋한 사람의 모든 정보를 제외합니다.

새 데이터세트에 뷰를 만들려면 다음 안내를 따르세요.

콘솔

  1. GCP Console에서 BigQuery 웹 UI를 엽니다.
    GCP Console로 이동

  2. 새 쿼리 작성을 클릭합니다.

  3. 다음 쿼리를 복사하여 쿼리 편집기 텍스트 영역에 붙여넣습니다. project-id를 프로젝트 ID로 바꿉니다.

    SELECT
      commit,
      author.name as author,
      committer.name as committer,
      repo_name
    FROM
      `project_id.github_source_data.github_contributors`
    
  4. 더보기를 클릭하고 쿼리 설정을 선택합니다.

  5. SQL 언어에서 표준을 선택합니다. 저장을 클릭하여 쿼리 설정을 업데이트합니다.

  6. 뷰 저장을 클릭합니다.

  7. 뷰 저장 대화상자에서 다음을 수행합니다.

    • 프로젝트 이름에서 프로젝트가 선택되었는지 확인합니다.
    • 데이터세트 이름에서 shared_views가 선택되었는지 확인합니다.
    • 테이블 이름github_analyst_view를 입력합니다.
    • 저장을 클릭합니다.

Python

이 샘플을 시도하기 전에 BigQuery 빠른 시작: 클라이언트 라이브러리 사용의 Python 설정 안내를 따르세요. 자세한 내용은 BigQuery Python API 참조 문서를 확인하세요.

shared_view_id = 'github_analyst_view'
view = bigquery.Table(shared_dataset.table(shared_view_id))
sql_template = """
    SELECT
        commit, author.name as author,
        committer.name as committer, repo_name
    FROM
        `{}.{}.{}`
"""
view.view_query = sql_template.format(
    client.project, source_dataset_id, source_table_id)
view = client.create_table(view)  # API request

데이터 분석가에게 프로젝트 수준 IAM 역할 할당

데이터 분석가가 뷰를 쿼리하려면 쿼리 작업을 실행할 권한이 필요합니다. bigquery.user 역할에는 프로젝트 내에서 쿼리 작업을 포함한 작업을 실행할 수 있는 권한이 포함됩니다. 사용자 또는 그룹에게 프로젝트 수준의 bigquery.user 역할을 부여하면 사용자는 데이터세트를 만들고 이러한 데이터세트의 테이블에 대해 쿼리 작업을 실행할 수 있습니다. bigquery.user 역할은 사용자가 만들지 않은 데이터세트의 데이터를 쿼리하거나 테이블 데이터를 보거나 테이블 스키마 세부정보를 볼 수 있는 권한을 제공하지 않습니다.

데이터 분석가를 프로젝트 수준 bigquery.user 역할에 할당해도 뷰의 쿼리 대상 테이블이 포함된 데이터세트의 테이블 데이터를 데이터 분석가가 보거나 쿼리할 수 없습니다. 기업 내 대부분의 개인(데이터 과학자, 비즈니스 인텔리전스 분석가, 데이터 분석가)에게는 프로젝트 수준 bigquery.user 역할이 할당되어야 합니다.

이 가이드에서 데이터 분석가는 data_analysts@example.com이라는 이름의 그룹입니다. 이 그룹 이름은 예시 목적으로만 사용되는 이름입니다. IAM 역할에 그룹을 추가할 때 이메일 주소와 도메인이 활성 상태인 Google 계정이나 Google Apps 계정에 연결되어야 합니다.

데이터 분석 그룹을 프로젝트 수준의 bigquery.user 역할에 할당하려면 다음 안내를 따릅니다.

콘솔

  1. Google Cloud Platform Console에서 IAM 페이지를 엽니다.

    IAM 페이지 열기

  2. 프로젝트 선택을 클릭합니다.

  3. 프로젝트를 선택한 다음 열기를 클릭합니다.

  4. IAM 페이지에서 추가를 클릭합니다.

  5. 구성원 추가 대화상자에서 다음을 수행합니다.

    • 구성원에 그룹 이름(data_analysts@example.com)을 입력합니다.
    • 역할에서 역할 선택을 클릭하고 BigQuery > BigQuery 사용자를 선택합니다.
    • 추가를 클릭합니다.

뷰가 포함된 데이터세트에 액세스 제어 할당

데이터 분석가가 뷰를 쿼리하려면 뷰가 포함된 데이터세트에 대한 bigquery.dataViewer 역할을 부여받아야 합니다. bigquery.user 역할은 쿼리 작업을 만드는 데 필요한 권한을 데이터 분석가에게 부여하지만 뷰가 포함된 데이터세트에 대한 bigquery.dataViewer 액세스 권한 이상이 있어야 데이터 분석가가 뷰를 성공적으로 쿼리할 수 있습니다.

데이터 분석가에게 데이터세트에 대한 bigquery.dataViewer 액세스 권한을 부여하려면 다음 안내를 따르세요.

Console

  1. 리소스 섹션에서 shared_views 데이터세트를 선택한 후 데이터세트 공유를 클릭합니다.

  2. 데이터세트 권한 패널에서 구성원 추가를 클릭합니다.

  3. 새 구성원 입력란에 data_analysts@example.com을 입력합니다.

  4. 역할 선택을 클릭하고 BigQuery> BigQuery 데이터 뷰어를 선택합니다.

  5. 완료를 클릭합니다.

Python

이 샘플을 시도하기 전에 BigQuery 빠른 시작: 클라이언트 라이브러리 사용의 Python 설정 안내를 따르세요. 자세한 내용은 BigQuery Python API 참조 문서를 확인하세요.

# analyst_group_email = 'data_analysts@example.com'
access_entries = shared_dataset.access_entries
access_entries.append(
    bigquery.AccessEntry('READER', 'groupByEmail', analyst_group_email)
)
shared_dataset.access_entries = access_entries
shared_dataset = client.update_dataset(
    shared_dataset, ['access_entries'])  # API request

뷰가 소스 데이터세트에 액세스하는 것을 승인

뷰가 포함된 데이터세트의 액세스 제어를 만든 다음 소스 데이터세트에서 승인된 뷰로 보기를 추가합니다. 이렇게 하면 뷰가 데이터 분석가 그룹이 아닌 소스 데이터에 액세스할 수 있습니다.

뷰가 소스 데이터에 액세스하는 것을 승인하려면 다음 안내를 따르세요.

콘솔

  1. 리소스에서 github_source_data 데이터세트를 선택하고 데이터세트 공유를 클릭합니다.

  2. 데이터세트 권한 패널에서 승인된 뷰 탭을 클릭합니다.

  3. 승인된 뷰 공유에서 다음을 수행합니다.

    • 프로젝트 선택에서 프로젝트가 선택되었는지 확인합니다.
    • 데이터세트 선택에서 shared_views를 선택합니다.
    • 뷰 선택에 뷰 이름(github_analyst_view)을 입력합니다.
    • 확인을 클릭합니다.

  4. 추가를 클릭한 후 완료를 클릭합니다.

Python

이 샘플을 시도하기 전에 BigQuery 빠른 시작: 클라이언트 라이브러리 사용의 Python 설정 안내를 따르세요. 자세한 내용은 BigQuery Python API 참조 문서를 확인하세요.

access_entries = source_dataset.access_entries
access_entries.append(
    bigquery.AccessEntry(None, 'view', view.reference.to_api_repr())
)
source_dataset.access_entries = access_entries
source_dataset = client.update_dataset(
    source_dataset, ['access_entries'])  # API request

구성 확인

구성이 완료되면 data_analysts 그룹의 구성원이 뷰를 쿼리하여 구성을 확인할 수 있습니다.

구성을 확인하려면 다음 안내를 따르세요.

Console

  1. data_analysts 그룹의 구성원이 GCP Console의 BigQuery 웹 UI로 이동하도록 합니다.
    GCP Console로 이동

  2. 새 쿼리 작성을 클릭합니다.

  3. 다음 쿼리를 복사하여 쿼리 편집기 텍스트 영역에 붙여넣습니다.

    SELECT
      *
    FROM
      `shared_views.github_analyst_view`
    

전체 소스 코드

다음은 참조용 가이드의 전체 소스 코드입니다.

Python

이 샘플을 시도하기 전에 BigQuery 빠른 시작: 클라이언트 라이브러리 사용의 Python 설정 안내를 따르세요. 자세한 내용은 BigQuery Python API 참조 문서를 확인하세요.

# Create a source dataset
from google.cloud import bigquery

client = bigquery.Client()
source_dataset_id = 'github_source_data'

source_dataset = bigquery.Dataset(client.dataset(source_dataset_id))
# Specify the geographic location where the dataset should reside.
source_dataset.location = 'US'
source_dataset = client.create_dataset(source_dataset)  # API request

# Populate a source table
source_table_id = 'github_contributors'
job_config = bigquery.QueryJobConfig()
job_config.destination = source_dataset.table(source_table_id)
sql = """
    SELECT commit, author, committer, repo_name
    FROM `bigquery-public-data.github_repos.commits`
    LIMIT 1000
"""
query_job = client.query(
    sql,
    # Location must match that of the dataset(s) referenced in the query
    # and of the destination table.
    location='US',
    job_config=job_config)  # API request - starts the query

query_job.result()  # Waits for the query to finish

# Create a separate dataset to store your view
shared_dataset_id = 'shared_views'
shared_dataset = bigquery.Dataset(client.dataset(shared_dataset_id))
shared_dataset.location = 'US'
shared_dataset = client.create_dataset(shared_dataset)  # API request

# Create the view in the new dataset
shared_view_id = 'github_analyst_view'
view = bigquery.Table(shared_dataset.table(shared_view_id))
sql_template = """
    SELECT
        commit, author.name as author,
        committer.name as committer, repo_name
    FROM
        `{}.{}.{}`
"""
view.view_query = sql_template.format(
    client.project, source_dataset_id, source_table_id)
view = client.create_table(view)  # API request

# Assign access controls to the dataset containing the view
# analyst_group_email = 'data_analysts@example.com'
access_entries = shared_dataset.access_entries
access_entries.append(
    bigquery.AccessEntry('READER', 'groupByEmail', analyst_group_email)
)
shared_dataset.access_entries = access_entries
shared_dataset = client.update_dataset(
    shared_dataset, ['access_entries'])  # API request

# Authorize the view to access the source dataset
access_entries = source_dataset.access_entries
access_entries.append(
    bigquery.AccessEntry(None, 'view', view.reference.to_api_repr())
)
source_dataset.access_entries = access_entries
source_dataset = client.update_dataset(
    source_dataset, ['access_entries'])  # API request

삭제

이 가이드에서 사용한 리소스 비용이 Google Cloud Platform 계정에 청구되지 않도록 하는 방법은 다음과 같습니다.

  1. GCP Console에서 프로젝트 페이지로 이동합니다.

    프로젝트 페이지로 이동

  2. 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제 삭제를 클릭합니다.
  3. 대화상자에서 프로젝트 ID를 입력한 다음 종료를 클릭하여 프로젝트를 삭제합니다.

다음 단계

  • 액세스 제어를 읽고 BigQuery 액세스 제어에 대해 알아보세요.
  • 뷰 소개를 읽고 BigQuery 뷰에 대해 알아보세요.
  • IAM 개요를 읽고 기본 IAM 개념에 대해 알아보세요.
  • 정책 관리에서 액세스 제어 관리 방법에 대해 알아보세요.
이 페이지가 도움이 되었나요? 평가를 부탁드립니다.

다음에 대한 의견 보내기...

도움이 필요하시나요? 지원 페이지를 방문하세요.