外部パーティション分割データの読み込み

BigQuery では、Hive パーティショニングレイアウトを使用して Cloud Storage に保存されているデータを読み込むことができます。Hive パーティショニングを使用すると、外部データを複数のファイルに整理し、命名規則でファイルを異なるパーティションに分割できます。詳細については、サポートされるデータレイアウトをご覧ください。

デフォルトでは、パーティション分割テーブルを明示的に作成しない限り、データの読み込み後に BigQuery でデータがパーティショニングされることはありません。

Hive パーティション分割データの読み込み

Hive パーティション分割データを読み込むには、次のいずれかのオプションを選択します。

コンソール

Google Cloud コンソールで [BigQuery] に移動します。

[BigQuery] に移動
[エクスプローラ] ペインでプロジェクトを開いて、データセットを選択します。
（アクションを表示）をクリックしてから、[テーブルを作成] をクリックします。[テーブルを作成] ペインが開きます。
[送信元] セクションで、次の詳細を指定します。

[テーブルの作成元] で [Google Cloud Storage] を選択します。
[Select file from Cloud Storage bucket] に、ワイルドカードを使用して Cloud Storage フォルダへのパスを入力します。たとえば、my_bucket/my_files* のようにします。Cloud Storage バケットは、作成、追加、または上書きするテーブルを含むデータセットと同じロケーションに存在している必要があります。
[ファイル形式] リストでファイル形式を選択します。
[ソースデータパーティショニング] チェックボックスをオンにして、[ソース URI の接頭辞を選択] に Cloud Storage URI の接頭辞を入力します。たとえば、gs://my_bucket/my_files のようにします。
[パーティション推論モード] セクションで、次のいずれかのオプションを選択します。
- 種類を自動的に推測します: パーティションスキーマ検出モードを AUTO に設定します。
- すべての列は文字列です: パーティションスキーマ検出モードを STRINGS に設定します。
- 独自に指定します: パーティションスキーマ検出モードを CUSTOM に設定し、パーティションキーのスキーマ情報を手動で入力します。詳細については、カスタムパーティションキースキーマを指定するをご覧ください。
省略可: このテーブルのすべてのクエリでパーティションフィルタを必須にするには、[パーティションフィルタを要求] チェックボックスをオンにします。パーティションフィルタを要求すると、コストが削減され、パフォーマンスが向上する場合があります。詳細については、クエリ内のパーティションキーに対する必須の述語フィルタをご覧ください。

[宛先] セクションで、次の詳細を指定します。
1. [プロジェクト] で、テーブルを作成するプロジェクトを選択します。
2. [データセット] で、テーブルを作成するデータセットを選択します。
3. [テーブル] に、作成するテーブルの名前を入力します。
4. [テーブルタイプ] で [ネイティブテーブル] を選択します。
[スキーマ] セクションでスキーマ定義を入力します。
スキーマの自動検出を有効にするには、[自動検出] を選択します。
スキーマと一致しない追加の列値を持つ行を無視するには、[詳細オプション] セクションを開いて [不明な値] を選択します。
[テーブルを作成] をクリックします。

SQL

外部パーティション分割テーブルを作成するには、LOAD DATA ステートメントの WITH PARTITION COLUMNS 句を使用してパーティションスキーマの詳細を指定します。

たとえば、外部でパーティション分割されたファイルを読み込むをご覧ください。

bq

自動パーティションキータイプ検出を使用して Hive パーティション分割データを読み込みます。

bq load --source_format=ORC --hive_partitioning_mode=AUTO \
--hive_partitioning_source_uri_prefix=gcs_uri_shared_prefix \
dataset.table gcs_uris

文字列型パーティションキー検出を使用して Hive パーティション分割データを読み込みます。

bq load --source_format=CSV --autodetect \
--hive_partitioning_mode=STRINGS \
--hive_partitioning_source_uri_prefix=gcs_uri_shared_prefix \
dataset.table gcs_uris

source\_uri\_prefix フィールドでエンコードされたカスタムパーティションキースキーマを使用して、Hive パーティション分割データを読み込みます。

bq load --source_format=JSON --hive_partitioning_mode=CUSTOM \
--hive_partitioning_source_uri_prefix=gcs_uri_shared_prefix/partition_key_schema \
dataset.table gcs_uris file_schema

パーティションキースキーマはソース URI プレフィックスの直後にエンコードされます。次の形式を使用して --hive_partitioning_source_uri_prefix を指定してください。

--hive_partitioning_source_uri_prefix=gcs_uri_shared_prefix/{key1:TYPE1}/{key2:TYPE2}/{key3:TYPE3}

API

JobConfigurationLoad に HivePartitioningOptions を設定すると Hive パーティショニングがサポートされます。

増分読み込みを実行する

次のデータレイアウトについて考えてみます。

gs://my_bucket/my_table/dt=2019-10-31/val=1/file1
gs://my_bucket/my_table/dt=2018-10-31/val=2/file2
gs://my_bucket/my_table/dt=2017-10-31/val=3/file3
gs://my_bucket/my_table/dt=2016-10-31/val=4/file4

2019-10-31 のみからデータを読み込むには、次の操作を行います。

Hive パーティショニングモードを AUTO、STRINGS、または CUSTOM に設定します。
Hive パーティショニングモードが AUTO または STRINGS の場合は、ソース URI プレフィックスを gs://my_bucket/my_table/ に設定します。CUSTOM の場合は、gs://my_bucket/my_table/{dt:DATE}/{val:INTEGER} を指定します。
URI gs://my_bucket/my_table/dt=2019-10-31/* を使用します。
dt 列と val 列が含まれたデータが読み込まれます。それぞれの値は 2019-10-31 と 1 です。

特定のファイルのみからデータを読み込むには、次の操作を行います。

Hive パーティショニングモードを AUTO、STRINGS、または CUSTOM に設定します。
Hive パーティショニングモードが AUTO または STRINGS の場合は、ソース URI プレフィックスを gs://my_bucket/my_table/ に設定します。CUSTOM には gs://my_bucket/my_table/{dt:DATE}/{val:INTEGER} を指定します。
URI gs://my_bucket/my_table/dt=2017-10-31/val=3/file3,gs://my_bucket/my_table/dt=2016-10-31/val=4/file4 を使用します。
2 つのファイルからデータが読み込まれます。dt 列と val 列が入力されます。

パーティションスキーマ

以降のセクションでは、BigQuery がサポートするデフォルトの Hive パーティション分割レイアウトとスキーマ検出モードについて説明します。

サポートされるデータレイアウト

Cloud Storage からデータをクエリする場合、Hive パーティションキーは通常の列として表示されます。データはデフォルトの Hive パーティション分割レイアウトに従う必要があります。たとえば、次のファイルはデフォルトのレイアウトに従っています。すなわち、Key-Value ペアがディレクトリとして等号記号（=）のセパレータでレイアウトされていて、パーティションキーが常に同じ順序になっています。

gs://my_bucket/my_table/dt=2019-10-31/lang=en/my_filename
gs://my_bucket/my_table/dt=2018-10-31/lang=fr/my_filename

この例で共通のソース URI プレフィックスは、gs://my_bucket/my_table です。

サポートされないデータレイアウト

ディレクトリパス内でパーティションキー名がエンコードされていない場合、パーティションスキーマの検出は失敗します。たとえば、パーティションキー名をエンコードしない次のパスを考えてみましょう。

gs://my_bucket/my_table/2019-10-31/en/my_filename

スキーマの順序が一貫していないファイルも検出に失敗します。たとえば、逆パーティションキーエンコーディングを使用した次の 2 つのファイルについて考えてみましょう。

gs://my_bucket/my_table/dt=2019-10-31/lang=en/my_filename
gs://my_bucket/my_table/lang=fr/dt=2018-10-31/my_filename

検出モード

BigQuery では、以下の 3 つの Hive パーティションスキーマ検出モードがサポートされています。

AUTO: キー名と型は自動検出されます。次の型を検出できます。
- STRING
- INTEGER
- DATE
  
  たとえば、/date=2018-10-18/ のようにします。
- TIMESTAMP
  
  たとえば、/time=2018-10-18 16:00:00+00/ のようにします。
STRINGS: キー名は自動的に STRING 型に変換されます。
CUSTOM: パーティションキースキーマはソース URI プレフィックスで指定されたとおりにエンコードされます。

カスタムパーティションキーのスキーマ

CUSTOM スキーマを使用するには、ソース URI プレフィックスフィールドでスキーマを指定する必要があります。CUSTOM スキーマを使用すると、各パーティションキーのタイプを指定できます。値は、指定された型で有効に解析される必要があります。そうでない場合、クエリは失敗します。

たとえば、source_uri_prefix フラグを gs://my_bucket/my_table/{dt:DATE}/{val:STRING} に設定すると、BigQuery は val を STRING として処理し、dt を DATE として処理して、gs://my_bucket/my_table を一致したファイルのソース URI 接頭辞として使用します。

制限事項

Hive パーティショニングのサポートは、すべての URI において、パーティションエンコードの直前に共通のソース URI プレフィックスがあるものと想定して構築されています。例: gs://BUCKET/PATH_TO_TABLE/。
Hive パーティション分割テーブルのディレクトリ構造では、同じパーティショニングキーが同じ順序で表示され、テーブルごとに最大 10 個のパーティションキーがあると想定されます。
データはデフォルトの Hive パーティショニングレイアウトに従う必要があります。
Hive パーティショニングキーと基になるファイル内の列は重複できません。
サポートは GoogleSQL のみに対応しています。
Cloud Storage からの読み込みに関する制限のすべてが適用されます。

次のステップ

パーティション分割テーブルについて学習する。
BigQuery で SQL を使用する方法を学習する。