이 문서에서는 양방향(주문형) 및 일괄 쿼리 작업을 실행하는 방법에 대해서 설명합니다.
필수 권한
작업은 BigQuery가 데이터 로드, 데이터 내보내기, 데이터 쿼리 또는 데이터 복사를 위해 사용자 대신 실행하는 작업입니다.
Cloud Console, 기본 BigQuery 웹 UI 또는 CLI를 사용하여 데이터 로드, 내보내기, 쿼리 또는 복사를 수행하면 작업 리소스가 자동으로 생성, 예약, 실행됩니다. 프로그래매틱 방식으로 로드, 내보내기, 쿼리 또는 복사 작업을 만들 수도 있습니다. 프로그래매틱 방식으로 작업을 만들면 BigQuery가 사용자 대신 작업을 예약 및 실행합니다.
작업을 완료하는 데 시간이 오래 걸릴 수 있으므로, 작업은 비동기식으로 실행되고 상태가 폴링될 수 있습니다. 리소스를 나열하거나 메타데이터를 가져오는 것처럼 더 짧은 동작은 작업 리소스에서 관리되지 않습니다.
쿼리 작업을 실행하려면 최소한 bigquery.jobs.create 권한이 부여되어 있어야 합니다. 쿼리 작업을 성공적으로 완료하려면 쿼리에서 참조하는 테이블 또는 뷰가 포함된 데이터세트에 대한 액세스 권한도 부여되어 있어야 합니다. 데이터세트 액세스 제어에 대한 자세한 내용은 데이터세트에 대한 액세스 제어를 참조하세요.
다음과 같은 사전 정의된 Cloud IAM 역할에는 bigquery.jobs.create 권한이 포함되어 있습니다.
bigquery.userbigquery.jobUserbigquery.admin
또한 사용자에게 bigquery.datasets.create 권한이 있으면 해당 사용자가 데이터세트를 만들 때 이에 대한 bigquery.dataOwner 액세스 권한이 부여됩니다.
bigquery.dataOwner 액세스 권한이 있으면 사용자가 데이터세트에서 테이블과 뷰를 쿼리할 수 있습니다.
BigQuery의 Cloud IAM 역할에 대한 자세한 내용은 사전 정의된 역할 및 권한을 참조하세요.
대화형 쿼리 실행
기본적으로 BigQuery는 양방향(주문형) 쿼리 작업을 실행합니다. 따라서 쿼리가 최대한 빠르게 실행됩니다. 대화형 쿼리는 동시 비율 한도와 일일 한도에 반영됩니다.
쿼리 결과는 항상 임시 또는 영구 테이블에 저장됩니다. 데이터를 기존 테이블에 추가하거나 덮어쓸지, 혹은 동일한 이름의 테이블이 존재하지 않을 경우 새 테이블을 만들지 선택할 수 있습니다.
임시 테이블에 데이터를 쓰는 대화형 쿼리를 실행하려면 다음 안내를 따르세요.
Console
Cloud Console에서 BigQuery 웹 UI를 엽니다.
Cloud Console로 이동새 쿼리 작성을 클릭합니다.
쿼리 편집기 텍스트 영역에 유효한 BigQuery SQL 쿼리를 입력합니다.
(선택사항) 데이터 처리 위치를 변경하려면 더보기, 쿼리 설정을 차례로 클릭합니다. 처리 위치에서 자동 선택을 클릭하고 데이터의 위치를 선택합니다. 마지막으로 저장을 클릭하여 쿼리 설정을 업데이트합니다.
실행을 클릭합니다.
그러면 임시 테이블에 출력을 쓰는 쿼리 작업이 생성됩니다.
기본 UI
BigQuery 웹 UI로 이동합니다.
BigQuery 웹 UI로 이동쿼리 작성을 클릭합니다.
새 쿼리 텍스트 영역에 유효한 SQL 쿼리를 입력합니다.
옵션 표시를 클릭합니다.
(선택사항) 처리 위치에서 미지정을 클릭하고 데이터의 위치를 선택합니다.
쿼리 실행을 클릭합니다.
그러면 임시 테이블에 출력을 쓰는 쿼리 작업이 생성됩니다.
CLI
bq query 명령어를 입력하고 쿼리 텍스트를 포함합니다.
(선택사항) --location 플래그를 지정하고 값을 사용자의 위치로 설정합니다.
다음과 같은 선택적 플래그를 지정할 수 있습니다. 이 목록에는 가장 일반적인 몇 가지 플래그만 포함되어 있습니다. query 명령어 플래그의 전체 목록은 bq 명령줄 도구 참조에서 bq query를 확인하세요.
플래그 지정
--destination_table플래그: 쿼리 결과를 기반으로 영구 테이블을 만듭니다. 기본 프로젝트에 없는 테이블에 쿼리 결과를 기록하려면 프로젝트 ID를 project_id:dataset 형식으로 데이터세트 이름에 추가합니다.--destination_table을 지정하지 않으면 임시(캐시) 테이블에 출력을 쓰는 쿼리 작업이 생성됩니다.--append_table플래그: 쿼리 결과를 대상 테이블에 추가합니다.--destination_kms_key플래그: Key Management Service 키를 사용하여 대상 테이블 데이터를 암호화합니다.--use_legacy_sql=false플래그: 표준 SQL 구문을 사용합니다..bigqueryrc파일을 사용하면 명령줄 도구의 기본 구문을 설정할 수 있습니다.--label플래그: 쿼리 작업에 key:value 형식으로 라벨을 적용합니다. 여러 개의 라벨을 지정하려면 이 플래그를 반복합니다.--max_rows또는-n플래그: 쿼리 결과에 반환할 행의 개수를 지정합니다.--maximum_bytes_billed플래그: 쿼리 요금이 청구되는 바이트 수를 제한합니다. 이 한도를 초과하는 쿼리는 실패하고 요금은 청구되지 않습니다. 이 플래그를 지정하지 않으면 청구되는 바이트는 프로젝트 기본값으로 설정됩니다.--udf_resource플래그: 사용자 정의 함수 리소스로 사용할 코드 파일을 로드하고 평가합니다. Cloud Storage URI나 로컬 코드 파일의 경로를 지정할 수 있습니다. 여러 파일을 지정하려면 이 플래그를 반복합니다.
표준 SQL 구문을 사용하여 대화형 쿼리를 실행하려면 다음 명령어를 입력합니다.
bq --location=location query \ --use_legacy_sql=false \ 'query'
각 항목의 의미는 다음과 같습니다.
- location은 쿼리가 처리되는 위치의 이름입니다.
--location플래그는 선택사항입니다. 예를 들어 도쿄 리전에서 BigQuery를 사용하는 경우에는 플래그 값을asia-northeast1로 설정할 수 있습니다. .bigqueryrc 파일을 사용하여 위치 기본값을 설정할 수 있습니다. - query는 표준 SQL 구문의 쿼리입니다.
예:
mydataset에 있는 mytable이라는 이름의 대상 테이블에 대화형 쿼리 결과를 쓰려면 다음 명령어를 입력합니다. 데이터세트는 기본 프로젝트에 있습니다. 이 쿼리는 미국 이름 데이터 공개 데이터세트에서 데이터를 가져옵니다.
bq query \
--destination_table mydataset.mytable \
--use_legacy_sql=false \
'SELECT
name,
number
FROM
`bigquery-public-data.usa_names.usa_1910_current`
WHERE
gender = "M"
ORDER BY
number DESC'
mydataset에 있는 mytable이라는 이름의 대상 테이블에 대화형 쿼리 결과를 쓰려면 다음 명령어를 입력합니다. 데이터세트는 기본 프로젝트가 아닌 myotherproject에 있습니다. 이 쿼리는 파티션을 나누지 않은 테이블인 USA Name Data 공개 데이터세트에서 데이터를 검색합니다.
bq query \
--destination_table myotherproject:mydataset.mytable \
--use_legacy_sql=false \
'SELECT
name,
number
FROM
`bigquery-public-data.usa_names.usa_1910_current`
WHERE
gender = "M"
ORDER BY
number DESC'
API
API를 사용하여 쿼리를 실행하려면 새 작업을 삽입하고 jobs#configuration.query 속성을 채웁니다. 작업 리소스의 jobReference 섹션에 있는 location 속성에 사용자 위치를 지정합니다.
getQueryResults를 호출하여 결과를 폴링합니다.
jobComplete가 true가 될 때까지 폴링해야 합니다. 그런 다음 errors 목록에 오류나 경고가 있는지 확인합니다.
C#
이 샘플을 시도하기 전에 BigQuery 빠른 시작: 클라이언트 라이브러리 사용의 C# 설정 안내를 따르세요. 자세한 내용은 BigQuery C# API 참조 문서를 확인하세요.
Go
이 샘플을 시도하기 전에 BigQuery 빠른 시작: 클라이언트 라이브러리 사용의 Go 설정 안내를 따르세요. 자세한 내용은 BigQuery Go API 참조 문서를 확인하세요.
자바
이 샘플을 시도하기 전에 BigQuery 빠른 시작: 클라이언트 라이브러리 사용의 자바 설정 안내를 따르세요. 자세한 내용은 BigQuery Java API 참조 문서를 확인하세요.
Node.js
이 샘플을 시도하기 전에 BigQuery 빠른 시작: 클라이언트 라이브러리 사용의 Node.js 설정 안내를 따르세요. 자세한 내용은 BigQuery Node.js API 참조 문서를 확인하세요.
PHP
이 샘플을 시도하기 전에 BigQuery 빠른 시작: 클라이언트 라이브러리 사용의 PHP 설정 안내를 따르세요. 자세한 내용은 BigQuery PHP API 참조 문서를 확인하세요.
Python
이 샘플을 시도하기 전에 BigQuery 빠른 시작: 클라이언트 라이브러리 사용의 Python 설정 안내를 따르세요. 자세한 내용은 BigQuery Python API 참조 문서를 확인하세요.
Ruby
이 샘플을 시도하기 전에 BigQuery 빠른 시작: 클라이언트 라이브러리 사용의 Ruby 설정 안내를 따르세요. 자세한 내용은 BigQuery Ruby API 참조 문서를 확인하세요.
일괄 쿼리 실행
BigQuery는 일괄 쿼리도 제공합니다. BigQuery는 사용자를 대신하여 각 일괄 쿼리를 큐에 포함시키고 BigQuery 공유 리소스 풀에서 유휴 리소스를 사용할 수 있으면 바로 쿼리를 시작합니다. 대개 몇 분 안에 발생합니다. 24시간 내에 쿼리를 시작하지 못한 경우 BigQuery는 작업 우선순위를 대화형으로 변경합니다.
일괄 쿼리는 동시 비율 한도에 반영되지 않으므로 여러 쿼리를 한 번에 시작하기에 간편합니다. 일괄 쿼리는 대화형(주문형) 쿼리와 동일한 리소스를 사용합니다. 정액제를 사용하는 경우에는 일괄 쿼리 및 대화형 쿼리가 할당된 슬롯을 공유합니다.
일괄 쿼리를 실행하려면 다음 안내를 따르세요.
Console
Cloud Console에서 BigQuery 웹 UI를 엽니다.
Cloud Console로 이동새 쿼리 작성 버튼을 클릭합니다.
쿼리 편집기 텍스트 영역에 유효한 SQL 쿼리를 입력합니다.
더보기 버튼, 쿼리 설정을 차례로 클릭합니다.
작업 우선순위 섹션에서 배치 옵션을 선택합니다.
(선택사항) 처리 위치에서 미지정을 클릭하고 데이터의 위치를 선택합니다.
저장을 클릭하여 쿼리 설정을 업데이트합니다.
실행을 클릭합니다.
기본 UI
BigQuery 웹 UI로 이동합니다.
BigQuery 웹 UI로 이동쿼리 작성 버튼을 클릭합니다.
새 쿼리 텍스트 영역에 유효한 BigQuery SQL 쿼리를 입력합니다.
옵션 표시 버튼을 클릭합니다.
쿼리 우선순위 섹션에서 일괄 옵션을 선택합니다.
(선택사항) 처리 위치에서 미지정을 클릭하고 데이터의 위치를 선택합니다.
쿼리 실행 버튼을 클릭합니다.
CLI
bq query 명령어를 입력하고 쿼리 텍스트를 포함합니다. --
batch 플래그를 지정하여 일괄 쿼리를 실행합니다.
(선택사항) --location 플래그를 지정하고 값을 사용자의 위치로 설정합니다.
다음과 같은 선택적 플래그를 지정할 수 있습니다. 이 목록에는 가장 일반적인 몇 가지 플래그만 포함되어 있습니다. query 명령어 플래그의 전체 목록은 bq 명령줄 도구 참조에서 bq query를 확인하세요.
플래그 지정
--destination_table플래그: 쿼리 결과를 기반으로 영구 테이블을 만듭니다. 기본 프로젝트에 없는 테이블에 쿼리 결과를 기록하려면 프로젝트 ID를 project_id:dataset 형식으로 데이터세트 이름에 추가합니다.--destination_table을 지정하지 않으면 임시(캐시) 테이블에 출력을 쓰는 쿼리 작업이 생성됩니다.--append_table플래그: 쿼리 결과를 대상 테이블에 추가합니다.--destination_kms_key플래그: Key Management Service 키를 사용하여 대상 테이블 데이터를 암호화합니다.--use_legacy_sql=false플래그: 표준 SQL 구문을 사용합니다..bigqueryrc파일을 사용하면 명령줄 도구의 기본 구문을 설정할 수 있습니다.--label플래그: 쿼리 작업에 key:value 형식으로 라벨을 적용합니다. 여러 개의 라벨을 지정하려면 이 플래그를 반복합니다.--max_rows또는-n플래그: 쿼리 결과에 반환할 행의 개수를 지정합니다.--maximum_bytes_billed플래그: 쿼리 요금이 청구되는 바이트 수를 제한합니다. 이 한도를 초과하는 쿼리는 실패하고 요금은 청구되지 않습니다. 이 플래그를 지정하지 않으면 청구되는 바이트는 프로젝트 기본값으로 설정됩니다.--udf_resource플래그: 사용자 정의 함수 리소스로 사용할 코드 파일을 로드하고 평가합니다. Cloud Storage URI나 로컬 코드 파일의 경로를 지정할 수 있습니다. 여러 파일을 지정하려면 이 플래그를 반복합니다.
표준 SQL 구문을 사용하여 일괄 쿼리를 실행하려면 다음 명령어를 입력합니다.
bq --location=location query \ --batch \ --use_legacy_sql=false \ 'query'
각 항목의 의미는 다음과 같습니다.
- location은 쿼리가 처리되는 위치의 이름입니다.
--location플래그는 선택사항입니다. 예를 들어 도쿄 리전에서 BigQuery를 사용하는 경우에는 플래그 값을asia-northeast1로 설정할 수 있습니다. .bigqueryrc 파일을 사용하여 위치 기본값을 설정할 수 있습니다. - query는 표준 SQL 구문의 쿼리입니다.
예:
mydataset에 있는 mytable이라는 이름의 대상 테이블에 일괄 쿼리 결과를 쓰려면 다음 명령어를 입력합니다. 데이터세트는 기본 프로젝트에 있습니다. 이 쿼리는 미국 이름 데이터 공개 데이터세트에서 데이터를 가져옵니다.
bq query \
--batch \
--destination_table mydataset.mytable \
--use_legacy_sql=false \
'SELECT
name,
number
FROM
`bigquery-public-data.usa_names.usa_1910_current`
WHERE
gender = "M"
ORDER BY
number DESC'
mydataset에 있는 mytable이라는 이름의 대상 테이블에 일괄 쿼리 결과를 쓰려면 다음 명령어를 입력합니다. 데이터세트는 기본 프로젝트가 아닌 myotherproject에 있습니다. 이 쿼리는 파티션을 나누지 않은 테이블인 USA Name Data 공개 데이터세트에서 데이터를 검색합니다.
bq query \
--batch \
--destination_table myotherproject:mydataset.mytable \
--use_legacy_sql=false \
'SELECT
name,
number
FROM
`bigquery-public-data.usa_names.usa_1910_current`
WHERE
gender = "M"
ORDER BY
number DESC'
API
API를 사용하여 쿼리를 실행하려면 새 작업을 삽입하고 query 작업 구성 속성을 채웁니다. (선택사항) 작업 리소스의 jobReference 섹션에 있는 location 속성에 사용자 위치를 지정합니다.
쿼리 작업 속성을 채울 때는 configuration.query.priority 속성을 포함하고 값을 BATCH로 설정합니다.
Go
이 샘플을 시도하기 전에 BigQuery 빠른 시작: 클라이언트 라이브러리 사용의 Go 설정 안내를 따르세요. 자세한 내용은 BigQuery Go API 참조 문서를 확인하세요.
자바
일괄 쿼리를 실행하려면 QueryJobConfiguration을 만들 때 쿼리 우선순위를 QueryJobConfiguration.Priority.BATCH로 설정합니다.
Python
이 샘플을 시도하기 전에 BigQuery 빠른 시작: 클라이언트 라이브러리 사용의 Python 설정 안내를 따르세요. 자세한 내용은 BigQuery Python API 참조 문서를 확인하세요.