테이블 데이터 관리

이 문서에서는 BigQuery에서 테이블 데이터를 관리하는 방법을 설명합니다. BigQuery 테이블 데이터에 대해 수행할 수 있는 작업은 다음과 같습니다.

  • 테이블에 데이터 로드
  • 테이블 데이터 찾아보기(또는 미리보기)
  • 테이블 데이터 쿼리
  • 테이블에 데이터 추가 또는 테이블 데이터 덮어쓰기
  • 데이터 조작 언어를 사용하여 테이블 데이터 수정
  • 테이블 데이터 복사
  • 테이블 데이터 내보내기

테이블 스키마 관리에 대한 자세한 내용은 테이블 스키마 수정을 참조하세요.

테이블에 데이터 로드

테이블을 만들 때 데이터를 로드하거나, 빈 테이블을 만든 후 나중에 데이터를 로드할 수 있습니다. 데이터를 로드할 때는 지원되는 데이터 형식에 스키마 자동 감지를 사용하거나 스키마를 직접 지정할 수 있습니다.

데이터를 로드하는 자세한 방법은 소스 데이터 형식 및 위치에 대한 문서를 참조하세요.

테이블 데이터 찾아보기

BigQuery 웹 UI 또는 명령줄 도구의 bq head 명령어를 사용하거나 tabledata.list API 메소드를 호출하여 테이블 데이터를 찾아볼 수 있습니다.

필수 권한

데이터세트 수준에서 테이블 데이터를 찾아보려면 찾아볼 테이블이 포함된 데이터세트에 대한 READER 액세스 권한이 필요합니다.

데이터세트 수준의 권한을 사용하는 대신 bigquery.tables.getData 권한을 포함한 프로젝트 수준의 IAM 역할을 활용할 수 있습니다. 다음의 사전 정의된 프로젝트 수준 IAM 역할은 프로젝트의 모든 테이블에 대한 bigquery.tables.getData 권한을 가지고 있습니다.

또한 bigquery.user 역할에는 bigquery.datasets.create 권한이 있기 때문에 bigquery.user 역할에 할당된 사용자는 자신이 만든 모든 데이터세트의 모든 테이블에 있는 데이터를 읽을 수 있습니다. bigquery.user 역할에 할당된 사용자가 데이터세트를 만들면 이 사용자에게 데이터세트 OWNER 액세스 권한이 부여됩니다. 데이터세트에 대한 OWNER 액세스 권한이 있는 사용자는 해당 데이터세트와 데이터세트에 포함된 모든 테이블을 완벽하게 제어할 수 있습니다.

BigQuery의 IAM 역할 및 권한에 대한 자세한 내용은 액세스 제어를 참조하세요. 데이터세트 수준 역할에 대한 자세한 내용은 데이터세트의 기본 역할을 참조하세요.

테이블 데이터 찾아보기

테이블 데이터를 찾아보려면 다음 단계를 따르세요.

웹 UI

  1. BigQuery 웹 UI의 탐색창에서 데이터세트 왼쪽에 있는 파란색 화살표를 클릭하여 데이터세트를 확장하거나 데이터세트 이름을 더블클릭합니다. 그러면 데이터세트에 있는 테이블과 뷰가 표시됩니다.

  2. 목록에서 테이블을 클릭합니다.

  3. Details(세부정보)를 클릭하고 Number of Rows(행 수)의 값을 확인합니다. CLI 또는 API를 사용하여 결과의 ​​시작점을 제어하려면 이 값이 필요할 수 있습니다.

  4. 미리보기를 클릭합니다. 샘플 데이터세트가 표시됩니다.

    테이블 미리보기

명령줄

특정 수의 테이블 행에 있는 모든 필드를 나열하려면 bq head 명령어를 --max_rows 플래그와 함께 실행합니다. --max_rows를 지정하지 않을 경우 기본값은 100입니다.

테이블의 일부 필드(중첩 및 반복 필드 포함)를 찾아보려면 --selected_fields 플래그를 사용하고 필드를 쉼표로 구분된 목록으로 입력합니다.

테이블 데이터를 표시하기 전에 건너뛸 행 수를 지정하려면 --start_row=[INTEGER] 플래그(또는 단축형 -s)를 사용합니다. 기본값은 0입니다. bq show 명령어로 테이블 정보를 가져와 테이블의 행 수를 검색할 수 있습니다.

찾아볼 테이블이 기본 프로젝트가 아닌 다른 프로젝트에 있는 경우, 프로젝트 ID를 [PROJECT_ID]:[DATASET].[TABLE] 형식으로 명령어에 추가합니다.

bq head --max_rows [INTEGER1] --start_row [INTEGER2] --selected_fields "[FIELDS]" [PROJECT_ID]:[DATASET].[TABLE]

각 항목의 의미는 다음과 같습니다.

  • [INTEGER1]은 표시할 행 수입니다.
  • [INTEGER2]는 데이터를 표시하기 전에 건너뛸 행 수입니다.
  • [FIELDS]는 쉼표로 구분된 필드 목록입니다.
  • [PROJECT_ID]는 프로젝트 ID입니다.
  • [DATASET]는 테이블이 포함된 데이터세트 이름입니다.
  • [TABLE]은 찾아볼 테이블의 이름입니다.

예:

mydataset.mytable의 처음 10개 행에 있는 모든 필드를 나열하려면 다음 명령어를 입력합니다. mydataset는 기본 프로젝트에 있습니다.

bq head --max_rows=10 mydataset.mytable

mydataset.mytable의 처음 100개 행에 있는 모든 필드를 나열하려면 다음 명령어를 입력합니다. mydataset는 기본 프로젝트가 아니라 myotherproject에 있습니다.

bq head myotherproject:mydataset.mytable

mydataset.mytablefield1field2만 표시하려면 다음 명령어를 입력합니다. 이 명령어는 --start_row 플래그를 사용하여 행 100으로 건너뜁니다. mydataset.mytable은 기본 프로젝트에 있습니다.

bq head --start_row 100 --selected_fields "field1,field2" mydataset.mytable

bq head 명령어는 쿼리 작업을 생성하지 않습니다. 따라서 bq head 명령어는 쿼리 기록에 표시되지 않으며 비용이 청구되지 않습니다.

API

tabledata.list를 호출하여 테이블의 데이터를 찾아볼 수 있습니다. tableId 매개변수에 테이블 이름을 지정하세요.

다음과 같은 선택적 매개변수를 구성하여 출력을 제어할 수 있습니다.

  • maxResults — 반환할 최대 결과 수입니다.
  • selectedFields — 반환할 필드를 쉼표로 구분한 목록입니다. 지정하지 않으면 모든 필드가 반환됩니다.
  • startIndex — 읽기를 시작할 행의 0부터 시작하는 색인입니다.

tabledata.list 참조 문서에 설명된 대로, 값은 파싱해야 하는 JSON 객체에 래핑된 상태로 반환됩니다.

C#

이 샘플을 시도해 보기 전에 클라이언트 라이브러리를 사용하는 BigQuery 빠른 시작의 C# 설정 안내를 따르세요. 자세한 내용은 BigQuery C# API 참조 문서를 참조하세요.

public int TableDataList(
    string datasetId, string tableId, int pageSize, BigQueryClient client)
{
    int recordCount = 0;
    var result = client.ListRows(datasetId, tableId, null,
        new ListRowsOptions { PageSize = pageSize });
    // If there are more rows than were returned in the first page of results,
    // iterating over the rows will lazily evaluate the results each time,
    // making further requests as necessary.
    foreach (var row in result)
    {
        Console.WriteLine($"{row["title"]}: {row["unique_words"]}");
        recordCount++;
    }
    return recordCount;
}

Go

이 샘플을 시도해 보기 전에 클라이언트 라이브러리를 사용하는 BigQuery 빠른 시작의 Go 설정 안내를 따르세요. 자세한 내용은 BigQuery Go API 참조 문서를 확인하세요.

Go용 Google Cloud 클라이언트 라이브러리는 기본적으로 자동 페이지 매김을 수행하므로 사용자가 직접 페이지 매김을 구현할 필요가 없습니다. 예를 들면 다음과 같습니다.

table := client.Dataset(datasetID).Table(tableID)
it := table.Read(ctx)
for {
	var row []bigquery.Value
	err := it.Next(&row)
	if err == iterator.Done {
		break
	}
	if err != nil {
		return err
	}
	fmt.Println(row)
}

자바

이 샘플을 시도해 보기 전에 클라이언트 라이브러리를 사용하는 BigQuery 빠른 시작의 자바 설정 안내를 따르세요. 자세한 내용은 BigQuery 자바 API 참조 문서를 참조하세요.

TableId tableIdObject = TableId.of(datasetName, tableName);
// This example reads the result 100 rows per RPC call. If there's no need to limit the number,
// simply omit the option.
TableResult tableData =
    bigquery.listTableData(tableIdObject, TableDataListOption.pageSize(100));
for (FieldValueList row : tableData.iterateAll()) {
  // do something with the row
}

Node.js

이 샘플을 시도해 보기 전에 클라이언트 라이브러리를 사용하는 BigQuery 빠른 시작의 Node.js 설정 안내를 따르세요. 자세한 내용은 BigQuery Node.js API 참조 문서를 확인하세요.

Node.js용 Google Cloud 클라이언트 라이브러리는 기본적으로 자동 페이지 매김을 수행하므로 사용자가 직접 페이지 매김을 구현할 필요가 없습니다. 예를 들면 다음과 같습니다.

// Imports the Google Cloud client library
const BigQuery = require('@google-cloud/bigquery');

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const projectId = "your-project-id";
// const datasetId = "my_dataset";
// const tableId = "my_table";

// Creates a client
const bigquery = new BigQuery({
  projectId: projectId,
});

// Lists rows in the table
bigquery
  .dataset(datasetId)
  .table(tableId)
  .getRows()
  .then(results => {
    const rows = results[0];
    console.log('Rows:');
    rows.forEach(row => console.log(row));
  })
  .catch(err => {
    console.error('ERROR:', err);
  });

PHP

이 샘플을 시도해 보기 전에 클라이언트 라이브러리를 사용하는 BigQuery 빠른 시작의 PHP 설정 안내를 따르세요. 자세한 내용은 BigQuery PHP API 참조 문서를 확인하세요.

PHP용 Google Cloud 클라이언트 라이브러리에서는 생성기 함수 rows를 사용하여 페이지 매김이 자동으로 수행되어 반복 중에 다음 결과 페이지를 가져오게 됩니다.

use Google\Cloud\BigQuery\BigQueryClient;

/** Uncomment and populate these variables in your code */
// $projectId = 'The Google project ID';
// $datasetId = 'The BigQuery dataset ID';
// $tableId   = 'The BigQuery table ID';
// $maxResults = 10;

$maxResults = 10;
$startIndex = 0;

$options = [
    'maxResults' => $maxResults,
    'startIndex' => $startIndex
];
$bigQuery = new BigQueryClient([
    'projectId' => $projectId,
]);
$dataset = $bigQuery->dataset($datasetId);
$table = $dataset->table($tableId);
$numRows = 0;
foreach ($table->rows($options) as $row) {
    print('---');
    foreach ($row as $column => $value) {
        printf('%s: %s' . PHP_EOL, $column, $value);
    }
    $numRows++;
}

Python

이 샘플을 시도해 보기 전에 클라이언트 라이브러리를 사용하는 BigQuery 빠른 시작의 Python 설정 안내를 따르세요. 자세한 내용은 BigQuery Python API 참조 문서를 참조하세요.

# from google.cloud import bigquery
# client = bigquery.Client()

dataset_ref = client.dataset('samples', project='bigquery-public-data')
table_ref = dataset_ref.table('shakespeare')
table = client.get_table(table_ref)  # API call

# Load all rows from a table
rows = client.list_rows(table)
assert len(list(rows)) == table.num_rows

# Load the first 10 rows
rows = client.list_rows(table, max_results=10)
assert len(list(rows)) == 10

# Specify selected fields to limit the results to certain columns
fields = table.schema[:2]  # first two columns
rows = client.list_rows(table, selected_fields=fields, max_results=10)
assert len(rows.schema) == 2
assert len(list(rows)) == 10

# Use the start index to load an arbitrary portion of the table
rows = client.list_rows(table, start_index=10, max_results=10)

# Print row data in tabular format
format_string = '{!s:<16} ' * len(rows.schema)
field_names = [field.name for field in rows.schema]
print(format_string.format(*field_names))  # prints column headers
for row in rows:
    print(format_string.format(*row))      # prints row data

Ruby

이 샘플을 시도해 보기 전에 클라이언트 라이브러리를 사용하는 BigQuery 빠른 시작의 Ruby 설정 안내를 따르세요. 자세한 내용은 BigQuery Ruby API 참조 문서를 확인하세요.

Ruby용 Google Cloud 클라이언트 라이브러리에서는 Table#dataData#next를 사용하여 페이지 매김이 자동으로 수행됩니다.

# project_id = "Your Google Cloud project ID"
# dataset_id = "ID of the dataset containing table"
# table_id   = "ID of the table to display data for"

require "google/cloud/bigquery"

bigquery = Google::Cloud::Bigquery.new project: project_id
dataset  = bigquery.dataset dataset_id
table    = dataset.table table_id

table.data.each do |row|
  row.each      do |column_name, value|
    puts "#{column_name} = #{value}"
  end
end

테이블 데이터 쿼리

데이터를 BigQuery에 로드한 후 테이블의 데이터를 쿼리할 수 있습니다. BigQuery는 다음 두 가지 유형의 쿼리를 지원합니다.

기본적으로 BigQuery는 양방향 쿼리를 실행합니다. 즉, 최대한 빨리 쿼리가 실행됩니다.

BigQuery는 일괄 쿼리도 제공합니다. BigQuery는 사용자를 대신하여 각 일괄 쿼리를 대기열에 포함시키고 유휴 리소스를 사용할 수 있으면 바로(대개 몇 분 소요) 쿼리를 시작합니다.

다음을 사용하여 양방향 쿼리와 일괄 쿼리를 실행할 수 있습니다.

BigQuery 테이블 쿼리에 대한 자세한 내용은 BigQuery 데이터 쿼리 소개를 참조하세요.

BigQuery 테이블에 저장된 데이터뿐만 아니라 외부에 저장된 데이터도 쿼리할 수 있습니다. 자세한 내용은 외부 데이터 소스 소개를 참조하세요.

테이블 데이터 추가 및 덮어쓰기

로드 또는 쿼리 작업을 수행하여 테이블 데이터를 덮어쓸 수 있습니다. 로드-추가 작업을 수행하거나 쿼리 결과를 테이블에 추가하여 기존 테이블에 데이터를 추가할 수도 있습니다.

데이터를 로드할 때 테이블 데이터를 추가하거나 덮어쓰는 자세한 방법은 소스 데이터 형식에 대한 다음 문서를 참조하세요.

쿼리 결과를 사용하여 테이블에 데이터를 추가하거나 테이블을 덮어쓰려면 대상 테이블을 지정하고 쓰기 처리를 다음 중 하나로 설정합니다.

  • Append to table(테이블에 추가) — 쿼리 결과를 기존 테이블에 추가합니다.
  • Overwrite table(테이블 덮어쓰기) — 쿼리 결과를 사용하여 기존 테이블을 같은 이름으로 덮어씁니다.

쿼리 결과를 사용하여 데이터를 추가하거나 덮어쓰는 자세한 방법은 쿼리 결과 쓰기를 참조하세요.

테이블 데이터 수정

표준 SQL 방언을 사용하는 경우 DML 문으로 테이블의 데이터를 수정할 수 있습니다. DML 문을 사용하면 일괄 행 업데이트, 삽입 및 삭제를 수행할 수 있습니다. DML 사용 예는 데이터 조작 언어를 사용하여 테이블 데이터 업데이트를 참조하세요.

이전 SQL 방언은 DML 문을 지원하지 않습니다. 이전 SQL을 사용하여 데이터를 업데이트하거나 삭제하려면 테이블을 삭제한 다음 새 데이터로 다시 만들어야 합니다. 또는 데이터를 수정하고 쿼리 결과를 새 대상 테이블에 쓰는 쿼리를 작성할 수도 있습니다.

테이블 데이터 복사

BigQuery 웹 UI 또는 명령줄 도구의 bq cp 명령어를 사용하거나 jobs.insert API 메소드를 호출하고 복사 작업을 구성하여 테이블을 복사할 수 있습니다.

테이블 복사에 대한 자세한 내용은 테이블 복사를 참조하세요.

테이블 데이터 내보내기

테이블 데이터를 CSV, JSON 또는 Avro 형식으로 내보낼 수 있습니다. 현재는 데이터를 Cloud Storage 버킷으로 내보내야 합니다. 로컬 머신으로 내보내기는 지원되지 않습니다. 하지만 BigQuery 웹 UI를 사용하여 쿼리 결과를 다운로드하고 저장할 수는 있습니다.

자세한 내용은 테이블 데이터 내보내기를 참조하세요.

다음 단계

이 페이지가 도움이 되었나요? 평가를 부탁드립니다.

다음에 대한 의견 보내기...

도움이 필요하시나요? 지원 페이지를 방문하세요.