스키마 자동 감지 사용

스키마 자동 감지

스키마 자동 감지를 사용하면 BigQuery가 CSV, JSON 또는 Google Sheets 데이터의 스키마를 추론할 수 있습니다. BigQuery로 데이터를 로드하거나 외부 데이터 소스를 쿼리할 때 스키마 자동 감지를 사용할 수 있습니다.

자동 감지를 사용 설정하면 BigQuery는 각 열의 데이터 유형을 추론합니다. BigQuery는 데이터 소스에서 무작위로 파일을 선택하고 최대 500행의 데이터를 스캔하여 대표 샘플로 사용합니다. BigQuery는 이후 각 필드를 살펴보고 샘플 값에 따라 해당 필드에 데이터 유형을 할당합니다. 열의 모든 행이 비어 있으면 자동 감지에서 기본적으로 해당 열의 데이터 유형이 STRING으로 설정됩니다.

CSV, JSON 또는 Google Sheets 데이터에 스키마 자동 감지를 사용 설정하지 않으면 테이블을 만들 때 스키마를 수동으로 제공해야 합니다.

Avro, Parquet, ORC, Firestore 내보내기 또는 Datastore 내보내기 파일에는 스키마 자동 감지를 사용 설정할 필요가 없습니다. 이러한 파일 형식은 자체 설명적이므로 BigQuery가 소스 데이터에서 테이블 스키마를 자동으로 추론합니다. Parquet, Avro, Orc 파일의 경우 명시적 스키마를 제공하여 추론된 스키마를 재정의할 수 있습니다.

테이블에 대해 감지된 스키마는 다음과 같은 방법으로 표시됩니다.

Google Cloud 콘솔 사용하기
bq 명령줄 도구의 bq show 명령어 사용하기

BigQuery에서 스키마를 감지하면 드물지만 필드 이름을 GoogleSQL 문법과 호환되도록 변경할 수 있습니다.

데이터 유형 변환에 대한 자세한 내용은 다음 페이지를 참조하세요.

데이터 유형 변환(Datastore에서 데이터 로드 시)
데이터 유형 변환(Firestore에서 데이터 로드 시)
Avro 변환
Parquet 변환
ORC 변환

스키마 자동 감지를 사용하여 데이터 로드

데이터 로드 시 스키마 자동 감지를 사용 설정하려면 다음 접근 방법 중 하나를 사용합니다.

Google Cloud 콘솔의 스키마 섹션에서 자동 감지에 대해 스키마 및 입력 매개변수 옵션을 선택합니다.
bq 명령줄 도구에서 --autodetect 매개변수와 함께 bq load 명령어를 사용합니다.

스키마 자동 감지가 사용 설정되면 BigQuery가 CSV 및 JSON 파일의 스키마를 자동으로 추론하려고 합니다. 자동 감지 논리는 처음에 데이터 행을 최대 500개까지 읽어서 스키마 필드 유형을 유추합니다. --skip_leading_rows 플래그가 있으면 선행 행을 건너뜁니다. 필드 유형은 가장 많은 필드를 포함하는 행을 기반으로 합니다. 따라서 모든 열/필드에 값이 있는 데이터 행이 최소 하나 이상 있으면 자동 감지가 예상한 대로 작동합니다.

Avro 파일, Parquet 파일, ORC 파일, Firestore 내보내기 파일 또는 Datastore 내보내기 파일에는 스키마 자동 감지를 사용할 수 없습니다. 이러한 파일을 BigQuery로 로드하면 테이블 스키마가 자체 설명적 소스 데이터에서 자동으로 검색됩니다.

JSON 또는 CSV 데이터를 로드할 때 스키마 자동 감지를 사용하려면 다음 안내를 따르세요.

콘솔

Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.

BigQuery로 이동
탐색기 패널에서 프로젝트를 확장하고 데이터 세트를 선택합니다.
작업 옵션을 펼치고 열기를 클릭합니다.
세부정보 패널에서 테이블 만들기를 클릭합니다.
테이블 만들기 페이지의 소스 섹션에서 다음을 수행합니다.
- 다음 항목으로 테이블 만들기에서 원하는 소스 유형을 선택합니다.
- 소스 필드에서 파일/Cloud Storage 버킷을 찾거나 Cloud Storage URI를 입력합니다. Google Cloud 콘솔에서는 URI를 여러 개 포함할 수 없지만 와일드 카드는 지원됩니다. Cloud Storage 버킷은 만들려는 테이블이 포함된 데이터 세트와 같은 위치에 있어야 합니다.
- 파일 형식의 경우 CSV 또는 JSON을 선택합니다.
테이블 만들기 페이지의 대상 섹션에서 다음을 수행합니다.
- 데이터 세트 이름에서 적절한 데이터 세트를 선택합니다.
- 테이블 이름 필드에 생성할 테이블의 이름을 입력합니다.
- 테이블 유형이 기본 테이블로 설정되어 있는지 확인합니다.
테이블 만들기를 클릭합니다.

bq

bq load 명령어를 --autodetect 매개변수와 함께 실행합니다.

(선택사항) --location 플래그를 지정하고 값을 사용자 위치로 설정합니다.

다음 명령어는 스키마 자동 감지를 사용하여 파일을 로드합니다.

bq --location=LOCATION load \
--autodetect \
--source_format=FORMAT \
DATASET.TABLE \
PATH_TO_SOURCE

다음을 바꿉니다.

LOCATION: 위치의 이름. --location 플래그는 선택사항입니다. 예를 들어 도쿄 리전에서 BigQuery를 사용하는 경우 플래그 값을 asia-northeast1로 설정합니다. .bigqueryrc 파일을 사용하여 위치 기본값을 설정할 수 있습니다.
FORMAT: NEWLINE_DELIMITED_JSON 또는 CSV입니다.
DATASET: 데이터를 로드할 테이블이 포함된 데이터 세트입니다.
TABLE: 데이터를 로드할 테이블의 이름입니다.
PATH_TO_SOURCE: CSV 또는 JSON 파일의 위치

예를 들면 다음과 같습니다.

다음 명령어를 입력하여 로컬 머신에서 데이터 세트 mydataset에 저장된 테이블 mytable로 myfile.csv를 로드합니다.

bq load --autodetect --source_format=CSV mydataset.mytable ./myfile.csv

다음 명령어를 입력하여 로컬 머신에서 데이터 세트 mydataset에 저장된 테이블 mytable로 myfile.json을 로드합니다.

bq load --autodetect --source_format=NEWLINE_DELIMITED_JSON \
mydataset.mytable ./myfile.json