컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

외부에서 파티션을 나눈 Cloud Storage 데이터 쿼리

BigQuery는 기본 Hive 파티션 나누기 레이아웃을 사용하여 Cloud Storage에 저장되는 Avro, Parquet, ORC, JSON, CSV 형식의 외부에서 파티션을 나눈 데이터에 대한 쿼리를 지원합니다. 하이브 파티션 나누기 지원은 테이블 정의 파일에서 적절한 옵션을 설정하여 사용할 수 있습니다. Google Cloud 콘솔, bq 명령줄 도구, BigQuery API를 사용하여 테이블을 만들고 수정할 수 있습니다.

관리되는 파티션을 나눈 테이블 쿼리에 대한 자세한 안내는 파티션을 나눈 테이블 소개를 참조하세요.

제한사항

  • 하이브 파티션 나누기 지원은 모든 URI에 대해 파티션 인코딩 바로 앞에서 끝나는 공통의 소스 URI 프리픽스를 가정하여 구축됩니다(예: gs://BUCKET/PATH_TO_TABLE/).
  • 파티션을 나눈 Hive 테이블의 디렉터리 구조는 동일한 파티션 나누기 키가 동일한 순서로 표시된다고 가정하며, 이때 파티션 키는 테이블당 최대 10개입니다.
  • 데이터는 기본 Hive 파티션 나누기 레이아웃을 따라야 합니다.
  • 기본 파일에 있는 Hive 파티션 나누기 키와 열은 겹치지 않아야 합니다.
  • Cloud Storage에 저장된 외부 데이터 소스 쿼리에 대한 모든 제한사항이 적용됩니다.
  • Google 표준 SQL에 대해서만 지원됩니다.

지원되는 데이터 레이아웃

데이터는 기본 Hive 파티션 나누기 레이아웃을 따라야 합니다. 예를 들어 다음 파일의 키-값 쌍은 기본 레이아웃을 따라 = 기호를 구분자로 사용하는 디렉터리로 구성되어 있으며, 파티션 키의 순서는 항상 동일합니다.

gs://myBucket/myTable/dt=2019-10-31/lang=en/foo
gs://myBucket/myTable/dt=2018-10-31/lang=fr/bar

이 예시에서 공통 소스 URI 프리픽스는 gs://myBucket/myTable입니다.

지원되지 않는 데이터 레이아웃

파티션 키 이름이 디렉터리 경로에 인코딩되어 있지 않으면 파티션 스키마 감지가 실패합니다. 예를 들어 다음과 같이 파티션 키 이름이 인코딩되지 않은 경로를 가정해 보겠습니다.

gs://myBucket/myTable/2019-10-31/en/foo

파일의 스키마 순서가 일관되지 않으면 감지가 실패합니다. 예를 들어 다음의 두 파일은 파티션 키 인코딩이 반전된 경우입니다.

gs://myBucket/myTable/dt=2019-10-31/lang=en/foo
gs://myBucket/myTable/lang=fr/dt=2018-10-31/bar

이러한 파일의 경우 파티션 스키마 감지가 실패합니다.

파티션 스키마 감지 모드

하이브 파티션 키는 Cloud Storage에서 데이터를 쿼리할 때 일반 열로 표시됩니다. BigQuery는 다음 세 가지 모드의 Hive 파티션 스키마 감지를 지원합니다.

  • AUTO: 키 이름과 유형이 자동 감지됩니다. STRING, INTEGER, DATE, TIMESTAMP와 같은 유형이 감지될 수 있습니다.
  • STRINGS: 키 이름이 STRING 유형으로 자동 변환됩니다.
  • CUSTOM: 파티션 키 스키마는 소스 URI 프리픽스에 지정된 대로 인코딩됩니다.

커스텀 파티션 키 스키마 제공

CUSTOM 스키마를 사용하려면 소스 URI 프리픽스 필드에 스키마를 지정해야 합니다. CUSTOM 스키마를 사용하면 각 파티션 키의 유형을 지정할 수 있습니다. 값은 지정된 유형에 유효하도록 파싱해야 하며, 그렇지 않으면 쿼리가 실패합니다.

예를 들어 source_uri_prefix 플래그를 gs://myBucket/myTable/{dt:DATE}/{val:STRING}로 설정하면 BigQuery가 val을 STRING으로, dt를 DATE로 처리하고, gs://myBucket/myTable을 일치하는 파일의 소스 URI 프리픽스로 사용합니다.

파티션 프루닝

BigQuery는 가능한 경우 파티션 키의 쿼리 조건자를 사용하여 파티션을 프루닝합니다. 이는 BigQuery가 불필요한 파일을 읽는 것을 방지하고 성능을 향상하는 데 도움이 됩니다.

쿼리에서 파티션 키에 조건자 필터 필요

외부에서 파티션을 나눈 테이블을 만들 때 HivePartitioningOptions에서 requirePartitionFilter 옵션을 사용 설정하여 파티션 키에 조건부 필터를 사용하도록 요구할 수 있습니다.

이 옵션이 사용 설정된 경우 WHERE 절을 지정하지 않고 외부에서 파티션을 나눈 테이블을 쿼리하려면 Cannot query over table <table_name> without a filter over column(s) <partition key names> that can be used for partition elimination과 같은 오류가 발생합니다.

Hive 파티션을 나눈 데이터용 BigLake 테이블 만들기

Hive 파티션을 나눈 데이터에 대해 BigLake 테이블을 만들려면 다음 옵션 중 하나를 선택하세요.

콘솔

  1. BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. 탐색기 창에서 프로젝트를 확장하고 데이터 세트를 선택합니다.

  3. 작업 보기를 클릭한 후 테이블 만들기를 클릭합니다. 그러면 테이블 만들기 창이 열립니다.

  4. 소스 섹션에서 다음 세부정보를 지정합니다.

    1. 다음 항목으로 테이블 만들기에서 Google Cloud Storage를 선택합니다.
    2. Cloud Storage 버킷에서 파일 선택 또는 URI 패턴 사용에서 와일드 카드를 사용하여 Cloud Storage 폴더 경로를 입력합니다. 예를 들면 my_bucket/my_files*입니다. Cloud Storage 버킷은 생성, 추가 또는 덮어쓰려는 테이블이 포함된 데이터 세트와 동일한 위치에 있어야 합니다.

    3. 파일 형식 목록에서 파일 유형을 선택합니다.

    4. 소스 데이터 파티션 나누기 체크박스를 선택한 후 다음 세부정보를 지정합니다.

      1. 소스 URI 프리픽스 선택에 Cloud Storage URI 프리픽스를 입력합니다. 예를 들면 gs://my_bucket/my_files입니다.
      2. 선택사항: 이 테이블의 모든 쿼리에 파티션 필터가 필요하면 파티션 필터 필요 체크박스를 선택합니다. 파티션 필터를 필수항목으로 설정하면 비용을 줄이고 성능을 높일 수 있습니다. 자세한 내용은 쿼리에서 파티션 키에 조건자 필터 필요를 참조하세요.
      3. 파티션 추론 모드 섹션에서 다음 옵션 중 하나를 선택합니다.

        • 유형을 자동으로 추론: 파티션 스키마 감지 모드를 AUTO로 설정합니다.
        • 모든 열은 문자열: 파티션 스키마 감지 모드를 STRINGS로 설정합니다.
        • 직접 제공: 파티션 스키마 감지 모드를 CUSTOM으로 설정하고 파티션 키의 스키마 정보를 직접 입력합니다. 자세한 내용은 커스텀 파티션 키 스키마 제공을 참조하세요.
  5. 대상 섹션에서 다음 세부정보를 지정합니다.

    1. 프로젝트에서 테이블을 만들 프로젝트를 선택합니다.
    2. 데이터 세트에서 테이블을 만들 데이터 세트를 선택합니다.
    3. 테이블에 만들 테이블의 이름을 입력합니다.
    4. 테이블 유형에서 외부 테이블을 선택합니다.
    5. Cloud 리소스 연결을 사용하여 BigLake 테이블 만들기 체크박스를 선택합니다.
    6. 연결 ID에 대해 이전에 만든 연결을 선택합니다.
  6. 스키마 섹션에 스키마 정의를 입력합니다.

  7. 스키마의 자동 감지를 사용 설정하려면 자동 감지를 선택합니다.

  8. 스키마와 일치하지 않는 추가 열 값이 있는 행을 무시하려면 고급 옵션 섹션을 펼치고 알 수 없는 값을 선택합니다.

  9. 테이블 만들기를 클릭합니다.

SQL

CREATE EXTERNAL TABLE DDL 문을 사용합니다.

  1. Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. 쿼리 편집기에서 다음 문을 입력합니다.

    CREATE EXTERNAL TABLE `PROJECT_ID.DATASET.EXTERNAL_TABLE_NAME`
    WITH PARTITION COLUMNS
    (
      PARTITION_COLUMN PARTITION_COLUMN_TYPE,
    )
    WITH CONNECTION `PROJECT_ID.REGION.CONNECTION_ID`
    OPTIONS (
      hive_partition_uri_prefix = "HIVE_PARTITION_URI_PREFIX",
      uris=['FILE_PATH'],
      max_staleness = STALENESS_INTERVAL,
      metadata_cache_mode = 'CACHE_MODE',
      format ="TABLE_FORMAT"
    );
    

    다음을 바꿉니다.

    • PROJECT_ID: 테이블을 만들 프로젝트의 이름(예: myproject)
    • DATASET: 테이블을 만들 BigQuery 데이터 세트의 이름(예: mydataset)
    • EXTERNAL_TABLE_NAME: 만들려는 테이블의 이름(예: mytable)
    • PARTITION_COLUMN: 파티션 나누기 열의 이름
    • PARTITION_COLUMN_TYPE: 파티션 나누기 열의 유형
    • REGION: 연결이 포함된 리전(예: us)
    • CONNECTION_ID: 연결의 이름(예: myconnection)
    • HIVE_PARTITION_URI_PREFIX: 하이브 파티션 나누기 URI 프리픽스(예: gs://mybucket/)
    • FILE_PATH: 만들려는 외부 테이블의 데이터 소스 경로(예: gs://mybucket/*.parquet)
    • STALENESS_INTERVAL: 캐시된 메타데이터가 BigLake 테이블에 대한 작업에서 사용되는지 여부와 작업이 사용하기 위해 캐시된 메타데이터가 작업에서 사용되려면 얼마나 최신이어야 하는지를 지정합니다. 메타데이터 캐싱 고려사항에 대한 자세한 내용은 성능을 위한 메타데이터 캐싱을 참조하세요.

      메타데이터 캐싱을 사용 중지하려면 0을 지정합니다. 이 값이 기본값입니다.

      메타데이터 캐싱을 사용 설정하려면 30분에서 7일 사이의 간격 리터럴 값을 지정합니다. 예를 들어 4시간 비활성 간격의 경우 INTERVAL 4 HOUR를 지정합니다. 이 값을 사용하면 지난 4시간 이내에 새로고침된 경우 테이블에 대한 작업이 캐시된 메타데이터를 사용합니다. 캐시된 메타데이터가 이보다 오래된 경우 작업이 대신 Cloud Storage에서 메타데이터를 검색합니다.

    • CACHE_MODE: 메타데이터 캐시를 자동 또는 수동으로 새로고침할지 지정합니다. 메타데이터 캐싱 고려사항에 대한 자세한 내용은 성능을 위한 메타데이터 캐싱을 참조하세요.

      시스템 정의 간격(일반적으로 30~60분)으로 메타데이터 캐시를 새로고침하려면 AUTOMATIC으로 설정합니다.

      지정한 일정에 따라 메타데이터 캐시를 새로고침하려면 MANUAL로 설정합니다. 이 경우 BQ.REFRESH_EXTERNAL_METADATA_CACHE 시스템 프로시져를 호출하여 캐시를 새로고침할 수 있습니다.

      STALENESS_INTERVAL이 0보다 큰 값으로 설정된 경우 CACHE_MODE를 설정해야 합니다.

    • TABLE_FORMAT: 만들려는 테이블의 형식(예: PARQUET)

  3. 실행을 클릭합니다.

쿼리를 실행하는 방법에 대한 자세한 내용은 대화형 쿼리 실행을 참조하세요.

예시

다음 예시에서는 파티션을 나눈 데이터에 대해 BigLake 테이블을 만듭니다.

  • 스키마는 자동으로 감지됩니다.
  • 테이블의 메타데이터 캐시 비활성 간격은 1일입니다.
  • 메타데이터 캐시가 자동으로 새로 고침됩니다.
CREATE EXTERNAL TABLE `my_dataset.my_table`
WITH PARTITION COLUMNS
(
  sku STRING,
)
WITH CONNECTION `us.my-connection`
OPTIONS(
  hive_partition_uri_prefix = "gs://mybucket/products",
  uris = ['gs://mybucket/products/*'],
  max_staleness = INTERVAL 1 DAY,
  metadata_cache_mode = 'AUTOMATIC'
);

다음 예시에서는 파티션을 나눈 데이터에 대해 BigLake 테이블을 만듭니다.

  • 스키마가 지정됩니다.
  • 테이블의 메타데이터 캐시 비활성 간격은 8시간입니다.
  • 메타데이터 캐시를 수동으로 새로고침해야 합니다.
CREATE EXTERNAL TABLE `my_dataset.my_table`
(
  ProductId INTEGER,
  ProductName, STRING,
  ProductType, STRING
)
WITH PARTITION COLUMNS
(
  sku STRING,
)
WITH CONNECTION `us.my-connection`
OPTIONS(
  hive_partition_uri_prefix = "gs://mybucket/products",
  uris = ['gs://mybucket/products/*'],
  max_staleness = INTERVAL 8 HOUR,
  metadata_cache_mode = 'MANUAL'
);

bq

먼저 bq mkdef 명령어를 사용하여 테이블 정의 파일을 만듭니다.

bq mkdef \
--source_format=SOURCE_FORMAT \
--connection_id=REGION.CONNECTION_ID \
--hive_partitioning_mode=PARTITIONING_MODE \
--hive_partitioning_source_uri_prefix=GCS_URI_SHARED_PREFIX \
--require_hive_partition_filter=BOOLEAN \
--metadata_cache_mode=CACHE_MODE \
 GCS_URIS > DEFINITION_FILE

다음을 바꿉니다.

  • SOURCE_FORMAT: 외부 데이터 소스의 형식(예: CSV)
  • REGION: 연결이 포함된 리전(예: us)
  • CONNECTION_ID: 연결의 이름(예: myconnection)
  • PARTITIONING_MODE: Hive 파티션 나누기 모드. 다음 값 중 하나를 사용합니다.
    • AUTO: 키 이름과 유형을 자동으로 감지
    • STRINGS: 키 이름을 문자열로 자동으로 변환
    • CUSTOM: 소스 URI 프리픽스의 키 스키마를 인코딩
  • GCS_URI_SHARED_PREFIX: 소스 URI 프리픽스
  • BOOLEAN: 쿼리 시 조건자 필터를 요구할지 여부를 지정. 이 플래그는 선택사항입니다. 기본값은 false입니다.
  • CACHE_MODE: 메타데이터 캐시를 자동 또는 수동으로 새로고침할지 지정합니다. 후속 bq mk 명령어에서 --max_staleness 플래그를 사용하여 메타데이터 캐싱을 사용 설정하려는 경우에만 이 플래그를 포함하면 됩니다. 메타데이터 캐싱 고려사항에 대한 자세한 내용은 성능을 위한 메타데이터 캐싱을 참조하세요.

    시스템 정의 간격(일반적으로 30~60분)으로 메타데이터 캐시를 새로고침하려면 AUTOMATIC으로 설정합니다.

    지정한 일정에 따라 메타데이터 캐시를 새로고침하려면 MANUAL로 설정합니다. 이 경우 BQ.REFRESH_EXTERNAL_METADATA_CACHE 시스템 프로시저를 호출하여 캐시를 새로고침할 수 있습니다.

    STALENESS_INTERVAL이 0보다 큰 값으로 설정된 경우 CACHE_MODE를 설정해야 합니다.

  • GCS_URIS는 와일드 카드 형식을 사용하는 Cloud Storage 폴더의 경로입니다.

  • DEFINITION_FILE은 로컬 머신에 있는 테이블 정의 파일의 경로입니다.

PARTITIONING_MODECUSTOM이면 다음 형식을 사용하여 소스 URI 프리픽스에 파티션 키 스키마를 포함합니다.

--hive_partitioning_source_uri_prefix=GCS_URI_SHARED_PREFIX/{KEY1:TYPE1}/{KEY2:TYPE2}/...

테이블 정의 파일을 만든 후 bq mk 명령어를 사용하여 BigLake 테이블을 만듭니다.

bq mk --external_table_definition=DEFINITION_FILE \
--max_staleness=STALENESS_INTERVAL \
DATASET_NAME.TABLE_NAME \
SCHEMA

다음을 바꿉니다.

  • DEFINITION_FILE: 테이블 정의 파일의 경로
  • STALENESS_INTERVAL: 캐시된 메타데이터가 BigLake 테이블에 대한 작업에서 사용되는지 여부와 작업이 사용하기 위해 캐시된 메타데이터가 작업에서 사용되려면 얼마나 최신이어야 하는지를 지정합니다. 이 플래그를 포함할 경우 위의 bq mkdef 명령어에서 --metadata_cache_mode 플래그의 값도 지정해야 합니다. 메타데이터 캐싱 고려사항에 대한 자세한 내용은 성능을 위한 메타데이터 캐싱을 참조하세요.

    메타데이터 캐싱을 사용 중지하려면 0을 지정합니다. 이 값이 기본값입니다.

    메타데이터 캐싱을 사용 설정하려면 INTERVAL 데이터 유형 문서에 설명된 Y-M D H:M:S 형식을 사용하여 30분에서 7일 사이의 간격 값을 지정합니다. 예를 들어 4시간 비활성 간격의 경우 0-0 0 4:0:0를 지정합니다. 이 값을 사용하면 지난 4시간 이내에 새로고침된 경우 테이블에 대한 작업이 캐시된 메타데이터를 사용합니다. 캐시된 메타데이터가 이보다 오래된 경우 작업이 대신 Cloud Storage에서 메타데이터를 검색합니다.

  • DATASET_NAME: 테이블이 포함된 데이터 세트의 이름

  • TABLE_NAME은 만드는 테이블의 이름입니다.

  • SCHEMAJSON 스키마 파일 경로를 지정하거나 field:data_type,field:data_type,... 형식으로 스키마를 지정합니다. 스키마 자동 감지를 사용하려면 이 항목을 생략하세요.

예시

다음 예시에서는 AUTO Hive 파티션 나누기 모드를 사용하고 메타데이터 캐시를 12시간 비활성 간격으로 설정하고 자동으로 새로고침하도록 설정합니다.

bq mkdef --source_format=CSV \
  --connection_id=us.my-connection \
  --hive_partitioning_mode=AUTO \
  --hive_partitioning_source_uri_prefix=gs://myBucket/myTable \
  --metadata_cache_mode=AUTOMATIC \
  gs://myBucket/myTable/* > mytable_def

bq mk --external_table_definition=mytable_def \
  --max_staleness=0-0 0 12:0:0 \
  mydataset.mytable \
  Region:STRING,Quarter:STRING,Total_sales:INTEGER

다음 예시에서는 STRING Hive 파티션 나누기 모드를 사용합니다.

bq mkdef --source_format=CSV \
  --connection_id=us.my-connection \
  --hive_partitioning_mode=STRING \
  --hive_partitioning_source_uri_prefix=gs://myBucket/myTable \
  gs://myBucket/myTable/* > mytable_def

bq mk --external_table_definition=mytable_def \
  mydataset.mytable \
  Region:STRING,Quarter:STRING,Total_sales:INTEGER

다음 예시에서는 CUSTOM Hive 파티션 나누기 모드를 사용합니다.

bq mkdef --source_format=CSV \
  --connection_id=us.my-connection \
  --hive_partitioning_mode=CUSTOM \
  --hive_partitioning_source_uri_prefix=gs://myBucket/myTable/{dt:DATE}/{val:STRING} \
  gs://myBucket/myTable/* > mytable_def

bq mk --external_table_definition=mytable_def \
  mydataset.mytable \
  Region:STRING,Quarter:STRING,Total_sales:INTEGER

API

BigQuery API를 사용하여 Hive 파티션 나누기를 설정하려면 테이블 정의 파일을 만들 때 ExternalDataConfiguration 객체에 hivePartitioningOptions 객체를 포함하세요. BigLake 테이블을 만들려면 connectionId 필드 값도 지정해야 합니다.

hivePartitioningOptions.mode 필드를 CUSTOM로 설정한 경우, hivePartitioningOptions.sourceUriPrefix 필드에 파티션 키 스키마를 인코딩해야 합니다(예: gs://BUCKET/PATH_TO_TABLE/{KEY1:TYPE1}/{KEY2:TYPE2}/...).

쿼리 시 조건자 필터를 사용하도록 하려면 hivePartitioningOptions.requirePartitionFilter 필드를 true로 설정합니다.

파티션을 나눈 Hive 데이터용 외부 테이블 만들기

파티션을 나눈 Hive 데이터의 외부 테이블을 만들려면 다음 옵션 중 하나를 선택합니다.

콘솔

  1. Google Cloud 콘솔에서 BigQuery로 이동합니다.

    BigQuery로 이동

  2. 탐색기 창에서 프로젝트를 확장하고 데이터 세트를 선택합니다.
  3. 작업 보기를 클릭한 후 테이블 만들기를 클릭합니다. 그러면 테이블 만들기 창이 열립니다.
  4. 소스 섹션에서 다음 세부정보를 지정합니다.
    1. 다음 항목으로 테이블 만들기에서 Google Cloud Storage를 선택합니다.
    2. Cloud Storage 버킷에서 파일 선택와일드 카드를 사용하여 Cloud Storage 폴더 경로를 입력합니다. 예를 들면 my_bucket/my_files*입니다. Cloud Storage 버킷은 생성, 추가 또는 덮어쓰려는 테이블이 포함된 데이터 세트와 동일한 위치에 있어야 합니다.
    3. 파일 형식 목록에서 파일 유형을 선택합니다.
    4. 소스 데이터 파티션 나누기 체크박스를 선택한 후 소스 URI 프리픽스 선택에 대해 Cloud Storage URI 프리픽스를 입력합니다. 예를 들면 gs://my_bucket/my_files입니다.
    5. 파티션 추론 모드 섹션에서 다음 옵션 중 하나를 선택합니다.
      • 유형을 자동으로 추론: 파티션 스키마 감지 모드를 AUTO로 설정합니다.
      • 모든 열은 문자열: 파티션 스키마 감지 모드를 STRINGS로 설정합니다.
      • 직접 제공하여 파티션 스키마 감지 모드를 CUSTOM으로 설정하고 파티션 키의 스키마 정보를 직접 입력합니다. 자세한 내용은 커스텀 파티션 키 스키마 제공을 참조하세요.
    6. 선택사항: 이 테이블의 모든 쿼리에 파티션 필터가 필요하면 파티션 필터 필요 체크박스를 선택합니다. 파티션 필터를 필수항목으로 설정하면 비용을 줄이고 성능을 높일 수 있습니다. 자세한 내용은 쿼리에서 파티션 키에 조건자 필터 필요를 참조하세요.
  5. 대상 섹션에서 다음 세부정보를 지정합니다.
    1. 프로젝트에서 테이블을 만들 프로젝트를 선택합니다.
    2. 데이터 세트에서 테이블을 만들 데이터 세트를 선택합니다.
    3. 테이블에 만들 테이블의 이름을 입력합니다.
    4. 테이블 유형에서 외부 테이블을 선택합니다.
  6. 스키마 섹션에 스키마 정의를 입력합니다.
  7. 스키마의 자동 감지를 사용 설정하려면 자동 감지를 선택합니다.
  8. 스키마와 일치하지 않는 추가 열 값이 있는 행을 무시하려면 고급 옵션 섹션을 펼치고 알 수 없는 값을 선택합니다.
  9. 테이블 만들기를 클릭합니다.

SQL

CREATE EXTERNAL TABLE DDL 문을 사용합니다.

다음 예시에서는 Hive 파티션 키의 자동 감지를 사용합니다.

CREATE EXTERNAL TABLE `PROJECT_ID.DATASET.EXTERNAL_TABLE_NAME`
WITH PARTITION COLUMNS
OPTIONS (
format = 'SOURCE_FORMAT',
uris = ['GCS_URIS'],
hive_partition_uri_prefix = 'GCS_URI_SHARED_PREFIX',
require_hive_partition_filter = BOOLEAN);

다음을 바꿉니다.

  • SOURCE_FORMAT: 외부 데이터 소스 형식(예: PARQUET)
  • GCS_URIS: 와일드 카드 형식을 사용하는 Cloud Storage 폴더의 경로
  • GCS_URI_SHARED_PREFIX: 와일드 카드가 없는 소스 URI 프리픽스
  • BOOLEAN: 쿼리 시 조건자 필터를 요구할지 여부. 이 플래그는 선택사항입니다. 기본값은 false입니다.

다음 예시에서는 커스텀 Hive 파티션 키와 유형을 WITH PARTITION COLUMNS 절에 나열하여 사용합니다.

CREATE EXTERNAL TABLE `PROJECT_ID.DATASET.EXTERNAL_TABLE_NAME`
WITH PARTITION COLUMNS (PARTITION_COLUMN_LIST)
OPTIONS (
format = 'SOURCE_FORMAT',
uris = ['GCS_URIS'],
hive_partition_uri_prefix = 'GCS_URI_SHARED_PREFIX',
require_hive_partition_filter = BOOLEAN);

다음을 바꿉니다.

  • PARTITION_COLUMN_LIST: Cloud Storage 폴더 경로에서 다음 형식으로 같은 순서를 따르는 열 목록
KEY1 TYPE1, KEY2 TYPE2

다음 예시에서는 외부에서 파티션을 나눈 테이블을 만듭니다. 스키마 자동 감지를 사용하여 파일 스키마와 파티션을 나눈 하이브 레이아웃을 모두 감지합니다. 외부 경로가 gs://bucket/path/field_1=first/field_2=1/data.parquet이면 파티션 열은 field_1(STRING) 및 field_2(INT64)로 감지됩니다.

CREATE EXTERNAL TABLE dataset.AutoHivePartitionedTable
WITH PARTITION COLUMNS
OPTIONS (
uris = ['gs://bucket/path/*'],
format = 'PARQUET',
hive_partition_uri_prefix = 'gs://bucket/path',
require_hive_partition_filter = false);

다음 예시에서는 파티션 열을 명시적으로 지정하여 외부에서 파티션을 나눈 테이블을 만듭니다. 이 예시에서는 외부 파일 경로의 패턴이 gs://bucket/path/field_1=first/field_2=1/data.parquet라고 가정합니다.

CREATE EXTERNAL TABLE dataset.CustomHivePartitionedTable
WITH PARTITION COLUMNS (
field_1 STRING, -- column order must match the external path
field_2 INT64)
OPTIONS (
uris = ['gs://bucket/path/*'],
format = 'PARQUET',
hive_partition_uri_prefix = 'gs://bucket/path',
require_hive_partition_filter = false);

bq

먼저 bq mkdef 명령어를 사용하여 테이블 정의 파일을 만듭니다.

bq mkdef \
--source_format=SOURCE_FORMAT \
--hive_partitioning_mode=PARTITIONING_MODE \
--hive_partitioning_source_uri_prefix=GCS_URI_SHARED_PREFIX \
--require_hive_partition_filter=BOOLEAN \
 GCS_URIS > DEFINITION_FILE

각 항목의 의미는 다음과 같습니다.

  • SOURCE_FORMAT: 외부 데이터 소스의 형식(예: CSV)
  • PARTITIONING_MODE: Hive 파티션 나누기 모드. 다음 값 중 하나를 사용합니다.
    • AUTO: 키 이름과 유형을 자동으로 감지
    • STRINGS: 키 이름을 문자열로 자동으로 변환
    • CUSTOM: 소스 URI 프리픽스의 키 스키마를 인코딩
  • GCS_URI_SHARED_PREFIX: 소스 URI 프리픽스
  • BOOLEAN: 쿼리 시 조건자 필터를 요구할지 여부를 지정. 이 플래그는 선택사항입니다. 기본값은 false입니다.
  • GCS_URIS는 와일드 카드 형식을 사용하는 Cloud Storage 폴더의 경로입니다.
  • DEFINITION_FILE은 로컬 머신에 있는 테이블 정의 파일의 경로입니다.

PARTITIONING_MODECUSTOM이면 다음 형식을 사용하여 소스 URI 프리픽스에 파티션 키 스키마를 포함합니다.

--hive_partitioning_source_uri_prefix=GCS_URI_SHARED_PREFIX/{KEY1:TYPE1}/{KEY2:TYPE2}/...

테이블 정의 파일을 만든 후 bq mk 명령어를 사용하여 외부 테이블을 만듭니다.

bq mk --external_table_definition=DEFINITION_FILE \
DATASET_NAME.TABLE_NAME \
SCHEMA

각 항목의 의미는 다음과 같습니다.

  • DEFINITION_FILE: 테이블 정의 파일의 경로
  • DATASET_NAME: 테이블이 포함된 데이터 세트의 이름
  • TABLE_NAME은 만드는 테이블의 이름입니다.
  • SCHEMAJSON 스키마 파일 경로를 지정하거나 field:data_type,field:data_type,... 형식으로 스키마를 지정합니다. 스키마 자동 감지를 사용하려면 이 항목을 생략하세요.

예시

다음 예시에서는 AUTO Hive 파티션 나누기 모드를 사용합니다.

bq mkdef --source_format=CSV \
  --hive_partitioning_mode=AUTO \
  --hive_partitioning_source_uri_prefix=gs://myBucket/myTable \
  gs://myBucket/myTable/* > mytable_def

bq mk --external_table_definition=mytable_def \
  mydataset.mytable \
  Region:STRING,Quarter:STRING,Total_sales:INTEGER

다음 예시에서는 STRING Hive 파티션 나누기 모드를 사용합니다.

bq mkdef --source_format=CSV \
  --hive_partitioning_mode=STRING \
  --hive_partitioning_source_uri_prefix=gs://myBucket/myTable \
  gs://myBucket/myTable/* > mytable_def

bq mk --external_table_definition=mytable_def \
  mydataset.mytable \
  Region:STRING,Quarter:STRING,Total_sales:INTEGER

다음 예시에서는 CUSTOM Hive 파티션 나누기 모드를 사용합니다.

bq mkdef --source_format=CSV \
  --hive_partitioning_mode=CUSTOM \
  --hive_partitioning_source_uri_prefix=gs://myBucket/myTable/{dt:DATE}/{val:STRING} \
  gs://myBucket/myTable/* > mytable_def

bq mk --external_table_definition=mytable_def \
  mydataset.mytable \
  Region:STRING,Quarter:STRING,Total_sales:INTEGER

API

BigQuery API를 사용하여 Hive 파티션 나누기를 설정하려면 테이블 정의 파일을 만들 때 ExternalDataConfiguration 객체에 hivePartitioningOptions 객체를 포함합니다.

hivePartitioningOptions.mode 필드를 CUSTOM로 설정한 경우, hivePartitioningOptions.sourceUriPrefix 필드에 파티션 키 스키마를 인코딩해야 합니다(예: gs://BUCKET/PATH_TO_TABLE/{KEY1:TYPE1}/{KEY2:TYPE2}/...).

쿼리 시 조건자 필터를 사용하도록 하려면 hivePartitioningOptions.requirePartitionFilter 필드를 true로 설정합니다.

자바

이 샘플을 사용해 보기 전에 BigQuery 빠른 시작: 클라이언트 라이브러리 사용Java 설정 안내를 따르세요. 자세한 내용은 BigQuery Java API 참조 문서를 확인하세요.

import com.google.cloud.bigquery.BigQuery;
import com.google.cloud.bigquery.BigQueryException;
import com.google.cloud.bigquery.BigQueryOptions;
import com.google.cloud.bigquery.ExternalTableDefinition;
import com.google.cloud.bigquery.FormatOptions;
import com.google.cloud.bigquery.HivePartitioningOptions;
import com.google.cloud.bigquery.TableId;
import com.google.cloud.bigquery.TableInfo;

// Sample to create external table using hive partitioning
public class SetHivePartitioningOptions {

  public static void main(String[] args) {
    // TODO(developer): Replace these variables before running the sample.
    String datasetName = "MY_DATASET_NAME";
    String tableName = "MY_TABLE_NAME";
    String sourceUri = "gs://cloud-samples-data/bigquery/hive-partitioning-samples/customlayout/*";
    String sourceUriPrefix =
        "gs://cloud-samples-data/bigquery/hive-partitioning-samples/customlayout/{pkey:STRING}/";
    setHivePartitioningOptions(datasetName, tableName, sourceUriPrefix, sourceUri);
  }

  public static void setHivePartitioningOptions(
      String datasetName, String tableName, String sourceUriPrefix, String sourceUri) {
    try {
      // Initialize client that will be used to send requests. This client only needs to be created
      // once, and can be reused for multiple requests.
      BigQuery bigquery = BigQueryOptions.getDefaultInstance().getService();

      // Configuring partitioning options
      HivePartitioningOptions hivePartitioningOptions =
          HivePartitioningOptions.newBuilder()
              .setMode("CUSTOM")
              .setRequirePartitionFilter(true)
              .setSourceUriPrefix(sourceUriPrefix)
              .build();

      TableId tableId = TableId.of(datasetName, tableName);
      ExternalTableDefinition customTable =
          ExternalTableDefinition.newBuilder(sourceUri, FormatOptions.parquet())
              .setAutodetect(true)
              .setHivePartitioningOptions(hivePartitioningOptions)
              .build();
      bigquery.create(TableInfo.of(tableId, customTable));
      System.out.println("External table created using hivepartitioningoptions");
    } catch (BigQueryException e) {
      System.out.println("External table was not created" + e.toString());
    }
  }
}

외부에서 파티션을 나눈 테이블 업데이트

영구 외부 테이블을 업데이트할 때는 파티션 키를 변경할 수 없습니다.