외부에서 파티션을 나눈 데이터 로드
BigQuery는 하이브 파티션 나누기 레이아웃을 사용하여 Cloud Storage에 저장된 데이터를 로드할 수 있습니다. 하이브 파티션 나누기는 파일을 여러 파티션으로 분리하는 이름 지정 규칙을 사용하여 외부 데이터가 여러 파일로 구성됨을 의미합니다. 자세한 내용은 지원되는 데이터 레이아웃을 참조하세요.
기본적으로 파티션을 나눈 테이블을 명시적으로 만들지 않으면 데이터를 로드한 후 BigQuery에서 데이터의 파티션이 나뉘지 않습니다.
하이브 파티션을 나눈 데이터 로드
하이브 파티션을 나눈 데이터를 로드하려면 다음 옵션 중 하나를 선택합니다.
콘솔
Google Cloud 콘솔에서 BigQuery로 이동합니다.
- 탐색기 창에서 프로젝트를 확장하고 데이터 세트를 선택합니다.
- 작업 보기를 클릭한 후 테이블 만들기를 클릭합니다. 그러면 테이블 만들기 창이 열립니다.
- 소스 섹션에서 다음 세부정보를 지정합니다.
- 다음 항목으로 테이블 만들기에서 Google Cloud Storage를 선택합니다.
- Cloud Storage 버킷에서 파일 선택에 와일드 카드를 사용하여 Cloud Storage 폴더 경로를 입력합니다.
예를 들면
my_bucket/my_files*
입니다. Cloud Storage 버킷은 생성, 추가 또는 덮어쓰려는 테이블이 포함된 데이터 세트와 동일한 위치에 있어야 합니다. - 파일 형식 목록에서 파일 유형을 선택합니다.
- 소스 데이터 파티션 나누기 체크박스를 선택한 후 소스 URI 프리픽스 선택에 대해 Cloud Storage URI 프리픽스를 입력합니다. 예를 들면
gs://my_bucket/my_files
입니다. - 파티션 추론 모드 섹션에서 다음 옵션 중 하나를 선택합니다.
- 유형을 자동으로 추론: 파티션 스키마 감지 모드를
AUTO
로 설정합니다. - 모든 열은 문자열: 파티션 스키마 감지 모드를
STRINGS
로 설정합니다. - 직접 제공하여 파티션 스키마 감지 모드를
CUSTOM
으로 설정하고 파티션 키의 스키마 정보를 직접 입력합니다. 자세한 내용은 커스텀 파티션 키 스키마 제공을 참조하세요.
- 유형을 자동으로 추론: 파티션 스키마 감지 모드를
- 선택사항: 이 테이블의 모든 쿼리에 파티션 필터가 필요하면 파티션 필터 필요 체크박스를 선택합니다. 파티션 필터를 필수항목으로 설정하면 비용을 줄이고 성능을 높일 수 있습니다. 자세한 내용은 쿼리에서 파티션 키에 조건자 필터 필요를 참조하세요.
- 대상 섹션에서 다음 세부정보를 지정합니다.
- 프로젝트에서 테이블을 만들 프로젝트를 선택합니다.
- 데이터 세트에서 테이블을 만들 데이터 세트를 선택합니다.
- 테이블에 만들 테이블의 이름을 입력합니다.
- 테이블 유형에서 기본 테이블을 선택합니다 .
- 스키마 섹션에 스키마 정의를 입력합니다.
- 스키마의 자동 감지를 사용 설정하려면 자동 감지를 선택합니다.
- 스키마와 일치하지 않는 추가 열 값이 있는 행을 무시하려면 고급 옵션 섹션을 펼치고 알 수 없는 값을 선택합니다.
- 테이블 만들기를 클릭합니다.
SQL
외부에서 파티션을 나눈 테이블을 만들려면 LOAD DATA
문의 WITH PARTITION COLUMNS
절을 사용하여 파티션 스키마 세부정보를 지정합니다.
예시는 외부에서 파티션을 나눈 파일 로드를 참조하세요.
bq
자동 파티션 키 유형 감지를 사용하여 하이브로 파티션을 나눈 데이터를 로드합니다.
bq load --source_format=ORC --hive_partitioning_mode=AUTO \ --hive_partitioning_source_uri_prefix=gcs_uri_shared_prefix \ dataset.table gcs_uris
문자열 유형 파티션 키 감지를 사용하여 하이브로 파티션을 나눈 데이터를 로드합니다.
bq load --source_format=CSV --autodetect \ --hive_partitioning_mode=STRINGS \ --hive_partitioning_source_uri_prefix=gcs_uri_shared_prefix \ dataset.table gcs_uris
source\_uri\_prefix
필드를 사용하여 인코딩된 커스텀 파티션 키 스키마를 사용하여 하이브로 파티션을 나눈 데이터를 로드합니다.
bq load --source_format=JSON --hive_partitioning_mode=CUSTOM \ --hive_partitioning_source_uri_prefix=gcs_uri_shared_prefix/partition_key_schema \ dataset.table gcs_uris file_schema
파티션 키 스키마는 소스 URI 프리픽스 바로 뒤에 인코딩됩니다. --hive_partitioning_source_uri_prefix
를 지정하려면 다음 형식을 사용하세요.
--hive_partitioning_source_uri_prefix=gcs_uri_shared_prefix/{key1:TYPE1}/{key2:TYPE2}/{key3:TYPE3}
API
하이브 파티션 나누기에 대한 지원은 JobConfigurationLoad
에서 HivePartitioningOptions
를 설정하여 존재합니다.
증분 로드 수행
다음과 같은 데이터 레이아웃을 가정해 보겠습니다.
gs://my_bucket/my_table/dt=2019-10-31/val=1/file1
gs://my_bucket/my_table/dt=2018-10-31/val=2/file2
gs://my_bucket/my_table/dt=2017-10-31/val=3/file3
gs://my_bucket/my_table/dt=2016-10-31/val=4/file4
2019-10-31의 데이터만 로드하려면 다음 안내를 따르세요.
- 하이브 파티션 나누기 모드를
AUTO
,STRINGS
, 또는CUSTOM
으로 설정합니다. AUTO
또는STRINGS
하이브 파티션 나누기 모드의 소스 URI 프리픽스를gs://my_bucket/my_table/
로 설정합니다. CUSTOM의 경우gs://my_bucket/my_table/{dt:DATE}/{val:INTEGER}
를 제공합니다.- URI
gs://my_bucket/my_table/dt=2019-10-31/*
을 사용합니다. dt
및val
열이 포함된 데이터가 로드되고, 두 열의 값은 각각2019-10-31
과1
입니다.
특정 파일의 데이터만 로드하려면 다음 안내를 따르세요.
- 하이브 파티션 나누기 모드를
AUTO
,STRINGS
, 또는CUSTOM
으로 설정합니다. AUTO
또는STRINGS
하이브 파티션 나누기 모드의 소스 URI 프리픽스를gs://my_bucket/my_table/
로 설정합니다.CUSTOM
에는gs://my_bucket/my_table/{dt:DATE}/{val:INTEGER}
를 입력합니다.- URI
gs://my_bucket/my_table/dt=2017-10-31/val=3/file3,gs://my_bucket/my_table/dt=2016-10-31/val=4/file4
를 사용합니다. dt
및val
열이 채워진 두 파일에서 데이터가 로드됩니다.
파티션 스키마
다음 섹션에서는 기본 하이브 파티션 나누기 레이아웃 및 BigQuery가 지원하는 스키마 감지 모드를 설명합니다.
지원되는 데이터 레이아웃
하이브 파티션 키는 Cloud Storage에서 데이터를 쿼리할 때 일반 열로 표시됩니다. 데이터는 기본 Hive 파티션 나누기 레이아웃을 따라야 합니다. 예를 들어 다음 파일의 키-값 쌍은 기본 레이아웃을 따라 등호 부호(=)를 구분자로 사용하는 디렉터리로 구성되어 있으며, 파티션 키의 순서는 항상 동일합니다.
gs://my_bucket/my_table/dt=2019-10-31/lang=en/my_filename
gs://my_bucket/my_table/dt=2018-10-31/lang=fr/my_filename
이 예시에서 공통 소스 URI 프리픽스는 gs://my_bucket/my_table
입니다.
지원되지 않는 데이터 레이아웃
파티션 키 이름이 디렉터리 경로에 인코딩되어 있지 않으면 파티션 스키마 감지가 실패합니다. 예를 들어 다음과 같이 파티션 키 이름이 인코딩되지 않은 경로를 가정해 보겠습니다.
gs://my_bucket/my_table/2019-10-31/en/my_filename
파일의 스키마 순서가 일관되지 않으면 감지가 실패합니다. 예를 들어 다음의 두 파일은 파티션 키 인코딩이 반전된 경우입니다.
gs://my_bucket/my_table/dt=2019-10-31/lang=en/my_filename
gs://my_bucket/my_table/lang=fr/dt=2018-10-31/my_filename
감지 모드
BigQuery는 다음 세 가지 모드의 Hive 파티션 스키마 감지를 지원합니다.
AUTO
: 키 이름과 유형이 자동 감지됩니다. 다음 유형을 감지할 수 있습니다.STRINGS
: 키 이름이STRING
유형으로 자동 변환됩니다.CUSTOM
: 파티션 키 스키마는 소스 URI 프리픽스에 지정된 대로 인코딩됩니다.
커스텀 파티션 키 스키마
CUSTOM
스키마를 사용하려면 소스 URI 프리픽스 필드에 스키마를 지정해야 합니다. CUSTOM
스키마를 사용하면 각 파티션 키의 유형을 지정할 수 있습니다.
값은 지정된 유형에 유효하도록 파싱해야 하며, 그렇지 않으면 쿼리가 실패합니다.
예를 들어 source_uri_prefix
플래그를 gs://my_bucket/my_table/{dt:DATE}/{val:STRING}
로 설정하면 BigQuery가 val
을 STRING으로, dt
를 DATE로 처리하고, gs://my_bucket/my_table
을 일치하는 파일의 소스 URI 프리픽스로 사용합니다.
제한사항
- 하이브 파티션 나누기 지원은 모든 URI에 대해 파티션 인코딩 바로 앞에서 끝나는 공통의 소스 URI 프리픽스를 가정하여 구축됩니다(예:
gs://BUCKET/PATH_TO_TABLE/
). - 파티션을 나눈 Hive 테이블의 디렉터리 구조는 동일한 파티션 나누기 키가 동일한 순서로 표시된다고 가정하며, 이때 파티션 키는 테이블당 최대 10개입니다.
- 데이터는 기본 Hive 파티션 나누기 레이아웃을 따라야 합니다.
- 기본 파일에 있는 Hive 파티션 나누기 키와 열은 겹치지 않아야 합니다.
GoogleSQL에서만 지원됩니다.
Cloud Storage에서 로드 관련 모든 제한사항이 적용됩니다.
다음 단계
- 파티션을 나눈 테이블 알아보기
- BigQuery에서 SQL을 사용하는 방법 알아보기