데이터 일괄 로드

Cloud Storage 또는 로컬 파일에서 BigQuery에 데이터를 일괄 작업으로 로드할 수 있습니다. 소스 데이터는 다음 형식 중 하나일 수 있습니다.

Avro
쉼표로 구분된 값(CSV)
JSON(줄바꿈으로 구분)
ORC
Parquet
Cloud Storage에 저장된 Datastore 내보내기
Cloud Storage에 저장된 Firestore 내보내기

BigQuery Data Transfer Service를 사용하여 Cloud Storage에서 BigQuery로 반복되는 로드를 설정할 수도 있습니다.

직접 사용해 보기

Google Cloud를 처음 사용하는 경우 계정을 만들어 실제 시나리오에서 BigQuery의 성능을 평가할 수 있습니다. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.

BigQuery 무료로 사용해 보기

시작하기 전에

이 문서의 각 태스크를 수행하는 데 필요한 권한을 사용자에게 제공하는 Identity and Access Management(IAM) 역할을 부여하고 데이터를 저장할 데이터 세트를 만듭니다.

필수 권한

데이터를 BigQuery로 로드하려면 로드 작업을 실행하고 데이터를 BigQuery 테이블과 파티션으로 로드할 수 있는 IAM 권한이 필요합니다. Cloud Storage에서 데이터를 로드할 경우 데이터가 포함된 버킷에 액세스할 수 있는 IAM 권한도 필요합니다.

데이터를 BigQuery로 로드할 수 있는 권한

데이터를 새 BigQuery 테이블이나 파티션으로 로드하거나 기존 테이블 또는 파티션을 추가하거나 덮어쓰려면 다음 IAM 권한이 필요합니다.

bigquery.tables.create
bigquery.tables.updateData
bigquery.tables.update
bigquery.jobs.create

다음과 같이 사전 정의된 각 IAM 역할에는 데이터를 BigQuery 테이블이나 파티션에 로드하기 위해 필요한 권한이 포함되어 있습니다.

roles/bigquery.dataEditor
roles/bigquery.dataOwner
roles/bigquery.admin(bigquery.jobs.create 권한 포함)
bigquery.user(bigquery.jobs.create 권한 포함)
bigquery.jobUser(bigquery.jobs.create 권한 포함)

또한 bigquery.datasets.create 권한이 있으면 만들 데이터 세트에서 로드 작업을 사용하여 테이블을 만들고 업데이트할 수 있습니다.

BigQuery의 IAM 역할과 권한에 대한 자세한 내용은 사전 정의된 역할 및 권한을 참조하세요.

Cloud Storage에서 데이터를 로드할 수 있는 권한

Cloud Storage 버킷에서 데이터를 로드하는 데 필요한 권한을 얻으려면 관리자에게 버킷의 스토리지 관리자(roles/storage.admin) IAM 역할을 부여해 달라고 요청하세요. 역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.

이 사전 정의된 역할에는 Cloud Storage 버킷에서 데이터를 로드하는 데 필요한 권한이 포함되어 있습니다. 필요한 정확한 권한을 보려면 필수 권한 섹션을 펼치세요.

필수 권한

Cloud Storage 버킷에서 데이터를 로드하려면 다음 권한이 필요합니다.

storage.buckets.get
storage.objects.get
storage.objects.list (required if you are using a URI wildcard)

커스텀 역할이나 다른 사전 정의된 역할을 사용하여 이 권한을 부여받을 수도 있습니다.

데이터 세트 생성

데이터를 저장할 BigQuery 데이터세트를 만듭니다.

Cloud Storage에서 데이터 로드

BigQuery는 다음 Cloud Storage 저장소 등급에서 데이터 로드를 지원합니다.

Standard
Nearline
Coldline
Archive

BigQuery에 데이터를 로드하는 방법은 다음 데이터 형식 페이지를 참조하세요.

Cloud Storage에서 BigQuery로 로드를 반복하는 방법을 알아보려면 Cloud Storage 전송을 참조하세요.

위치 고려사항

데이터 세트가 생성된 후에는 데이터 세트 위치를 변경할 수 없지만 데이터 세트를 복사하거나 수동으로 이동할 수 있습니다. 자세한 내용은 다음을 참조하세요.

Cloud Storage URI 검색

Cloud Storage 데이터 소스에서 데이터를 로드하려면 Cloud Storage URI를 제공해야 합니다.

Cloud Storage 리소스 경로에는 버킷 이름과 객체(파일 이름)가 포함됩니다. 예를 들어 Cloud Storage 버킷 이름이 mybucket이고 데이터 파일 이름이 myfile.csv라면 리소스 경로는 gs://mybucket/myfile.csv가 됩니다.

BigQuery는 처음 이중 슬래시 다음에 슬래시 여러 개가 연속으로 포함된 Cloud Storage 리소스 경로를 지원하지 않습니다. Cloud Storage 객체 이름에는 연속된 슬래시('/') 문자 여러 개가 포함될 수 있습니다. 하지만 BigQuery는 연속된 슬래시 여러 개를 단일 슬래시로 변환합니다. 예를 들어 gs://bucket/my//object//name 리소스 경로는 Cloud Storage에서는 유효하지만 BigQuery에서는 작동하지 않습니다.

Cloud Storage 리소스 경로를 검색하려면 다음 안내를 따르세요.

Cloud Storage 콘솔을 엽니다.

Cloud Storage 콘솔
소스 데이터가 포함된 객체(파일) 위치로 이동합니다.
객체의 이름을 클릭합니다.

객체 세부정보 페이지가 열립니다.
gsutil URI 필드에 제공된 값(gs://로 시작)을 복사합니다.

Google Datastore 내보내기의 경우 URI를 하나만 지정할 수 있으며 .backup_info 또는 .export_metadata로 끝나야 합니다.

Cloud Storage URI의 와일드 카드 지원

데이터가 여러 개의 파일로 분리되어 있는 경우 별표(*) 와일드 카드를 사용하여 여러 파일을 선택할 수 있습니다. 별표 와일드 카드를 사용하려면 다음 규칙을 따라야 합니다.

와일드 카드는 객체 이름 중간이나 끝에 입력할 수 있습니다.
별표 여러 개를 사용하는 것은 지원되지 않습니다. 예를 들어 gs://mybucket/fed-*/temp/*.csv 경로는 유효하지 않습니다.
버킷 이름에 별표를 사용하는 것은 지원되지 않습니다.

예를 들면 다음과 같습니다.

다음 예시에서는 프리픽스 gs://mybucket/fed-samples/fed-sample로 시작하는 모든 폴더의 모든 파일을 선택하는 방법을 보여줍니다.
```
gs://mybucket/fed-samples/fed-sample*
```
다음 예시에서는 fed-samples라는 폴더와 fed-samples의 모든 하위 폴더에 있는 .csv 확장자가 있는 파일만 선택하는 방법을 보여줍니다.
```
gs://mybucket/fed-samples/*.csv
```
다음 예시에서는 fed-samples라는 폴더에 있는 이름 지정 패턴이 fed-sample*.csv인 파일을 선택하는 방법을 보여줍니다. 이 예시에서는 fed-samples 하위 폴더에 있는 파일을 선택하지 않습니다.
```
gs://mybucket/fed-samples/fed-sample*.csv
```

bq 명령줄 도구를 사용할 때 일부 플랫폼에서 별표를 이스케이프 처리해야 할 수도 있습니다.

Cloud Storage에서 Datastore 또는 Firestore 내보내기 데이터를 로드할 때는 별표 와일드 카드를 사용할 수 없습니다.

제한사항

Cloud Storage 버킷에서 BigQuery로 데이터를 로드할 때는 다음과 같은 제한사항이 적용됩니다.

BigQuery는 외부 데이터 소스의 데이터 일관성을 보장하지 않습니다. 쿼리가 실행되는 동안 기본 데이터가 변경되면 예상치 못한 동작이 발생할 수 있습니다.
BigQuery는 Cloud Storage 객체 버전 관리를 지원하지 않습니다. Cloud Storage URI에 세대 번호를 포함하면 로드 작업이 실패합니다.

Cloud Storage 소스 데이터의 형식에 따라 추가 제한사항이 적용될 수 있습니다. 자세한 내용은 다음을 참조하세요.

로컬 파일에서 데이터 로드

다음 중 하나를 사용하여 읽을 수 있는 데이터 소스(예: 로컬 머신)에서 데이터를 로드할 수 있습니다.

Google Cloud 콘솔
bq 명령줄 도구의 bq load 명령어
API
클라이언트 라이브러리

Google Cloud 콘솔 또는 bq 명령줄 도구를 사용하여 데이터를 로드하면 로드 작업이 자동으로 생성됩니다.

로컬 데이터 소스에서 데이터를 로드하는 방법:

콘솔

Google Cloud 콘솔에서 BigQuery 페이지를 엽니다.

BigQuery 페이지로 이동
탐색기 패널에서 프로젝트를 확장하고 데이터 세트를 선택합니다.
작업 옵션을 펼치고 열기를 클릭합니다.
세부정보 패널에서 테이블 만들기를 클릭합니다.
테이블 만들기 페이지의 소스 섹션에서 다음을 수행합니다.
- 다음 항목으로 테이블 만들기에서 업로드를 선택합니다.
- 파일 선택에서 찾아보기를 클릭합니다.
- 파일을 찾은 후 열기를 클릭합니다. 로컬 파일에서는 와일드 카드와 쉼표로 구분된 목록이 지원되지 않습니다.
- 파일 형식에서 CSV, JSON(줄바꿈으로 구분), Avro, Parquet 또는 ORC를 선택합니다.
테이블 만들기 페이지의 대상 섹션에서 다음을 수행합니다.
- 프로젝트에서 적절한 프로젝트를 선택합니다.
- 데이터 세트에서 적절한 데이터 세트를 선택합니다.
- 테이블 필드에 BigQuery에 만들려는 테이블의 이름을 입력합니다.
- 테이블 유형이 기본 테이블로 설정되어 있는지 확인합니다.
스키마 섹션에 스키마 정의를 입력합니다.
- CSV 및 JSON 파일의 경우 자동 감지 옵션을 선택하여 스키마 자동 감지를 사용 설정할 수 있습니다. 다른 지원되는 파일 유형의 경우 스키마 정보는 소스 데이터에서 자체 기술됩니다.
- 스키마 정보를 수동으로 입력하는 방법은 다음과 같습니다.
  - 텍스트로 편집을 클릭하고 테이블 스키마를 JSON 배열로 입력합니다.
    참고: bq show --format=prettyjson dataset.table 명령어를 입력하면 기존 테이블 스키마를 JSON 형식으로 볼 수 있습니다.
  - 필드 추가를 사용하여 스키마를 직접 입력합니다.
고급 옵션 섹션에서 해당 항목을 선택합니다. 사용 가능한 옵션에 대한 자세한 내용은 CSV 옵션과 JSON 옵션을 참조하세요.
선택사항: 고급 옵션에서 쓰기 처리를 선택합니다.
- 비어 있으면 쓰기: 테이블이 비어 있는 경우에만 데이터를 씁니다.
- 테이블에 추가: 데이터를 테이블 끝에 추가합니다. 이 설정은 기본값입니다.
- 테이블 덮어쓰기: 새 데이터를 쓰기 전에 테이블의 모든 기존 데이터를 삭제합니다.
테이블 만들기를 클릭합니다.

bq

bq load 명령어를 사용하고 source_format을 지정하고 로컬 파일 경로를 포함합니다.

(선택사항) --location 플래그를 지정하고 값을 사용자 위치로 설정합니다.

기본 프로젝트가 아닌 다른 프로젝트에 데이터를 로드하려면 프로젝트 ID를 PROJECT_ID:DATASET 형식으로 데이터 세트에 추가합니다.

bq --location=LOCATION load \
--source_format=FORMAT \
PROJECT_ID:DATASET.TABLE \
PATH_TO_SOURCE \
SCHEMA

다음을 바꿉니다.

LOCATION: 사용자 위치입니다. --location 플래그는 선택사항입니다. 예를 들어 도쿄 리전에서 BigQuery를 사용하는 경우 플래그 값을 asia-northeast1로 설정합니다. .bigqueryrc 파일을 사용하여 위치 기본값을 설정할 수 있습니다.
FORMAT: CSV, AVRO, PARQUET, ORC, 또는 NEWLINE_DELIMITED_JSON.
project_id: 프로젝트 ID입니다.
dataset: 기존 데이터 세트입니다.
table: 데이터를 로드할 테이블의 이름입니다.
path_to_source: 로컬 파일의 경로입니다.
schema: 유효한 스키마입니다. 스키마는 로컬 JSON 파일일 수 있고 명령어의 일부로 인라인으로 입력할 수도 있습니다. 스키마 정의를 제공하는 대신 --autodetect 플래그를 사용해도 됩니다.

또한 BigQuery가 데이터를 파싱하는 방법을 제어할 수 있는 옵션에 플래그를 추가할 수 있습니다. 예를 들어 --skip_leading_rows 플래그를 사용하면 CSV 파일의 헤더 행을 무시할 수 있습니다. 자세한 내용은 CSV 옵션과 JSON 옵션을 참조하세요.

예를 들면 다음과 같습니다.

다음 명령어는 줄바꿈으로 구분된 JSON 파일(mydata.json)을 기본 프로젝트의 mydataset에 있는 mytable이라는 테이블에 로드합니다. 스키마는 myschema.json이라는 로컬 스키마 파일에 정의됩니다.

    bq load \
    --source_format=NEWLINE_DELIMITED_JSON \
    mydataset.mytable \
    ./mydata.json \
    ./myschema.json

다음 명령어는 로컬 CSV 파일(mydata.csv)을 myotherproject의 mydataset에 있는 mytable이라는 테이블에 로드합니다. 스키마는 FIELD:DATA_TYPE, FIELD:DATA_TYPE 형식으로 인라인으로 정의됩니다.

    bq load \
    --source_format=CSV \
    myotherproject:mydataset.mytable \
    ./mydata.csv \
    qtr:STRING,sales:FLOAT,year:STRING

다음 명령어는 로컬 CSV 파일(mydata.csv)을 기본 프로젝트의 mydataset에 있는 mytable이라는 테이블에 로드합니다. 스키마는 스키마 자동 감지를 통해 정의됩니다.

    bq load \
    --autodetect \
    --source_format=CSV \
    mydataset.mytable \
    ./mydata.csv