BigQuery データの準備の概要
このドキュメントでは、BigQuery で AI を活用したデータ準備について説明します。データ準備は BigQuery Studio リソースであり、Gemini in BigQuery を使用してデータを分析し、データのクリーニング、変換、拡充に関するインテリジェントな提案を提供します。手動によるデータ準備タスクに費やす時間と労力を大幅に削減できます。データ準備のオーケストレーションは Dataform によって行われます。
利点
- Gemini が生成したコンテキスト対応の変換候補を使用すると、データ パイプラインの開発にかかる時間を短縮できます。
- 生成された結果をプレビューで検証し、自動スキーマ マッピングを使用してデータ品質のクリーンアップと拡充の候補を受け取ることができます。
- Dataform を使用すると、継続的インテグレーションと継続的開発(CI / CD)プロセスを使用して、コードレビューとソース管理に必要なチーム間のコラボレーションをサポートできます。
必要なロール
データを準備するユーザーと、ジョブを実行する Dataform サービス アカウントには、Identity and Access Management(IAM)ロールが必要です。詳細については、必要なロールと Gemini in BigQuery を設定するをご覧ください。
データ準備のエントリ ポイント
データ準備は [BigQuery Studio] ページで作成、管理できます(BigQuery でデータ準備エディタを開くをご覧ください)。
BigQuery データ準備でテーブルを開くと、認証情報を使用して BigQuery ジョブが実行されます。実行すると、選択したテーブルからサンプル行が作成され、同じプロジェクトの一時テーブルに結果が書き込まれます。Gemini は、サンプルデータとスキーマを使用して、データ準備エディタに表示されるデータ準備の候補を生成します。
データ準備エディタのビュー
データ準備は、[BigQuery Studio] ページのタブとして表示されます。各タブには、一連のサブタブ(データ準備のビュー)があり、ここでデータ準備を設計して管理します。
データビュー
新しいデータ準備を作成すると、データ準備エディタのタブが開き、テーブルの代表的なサンプルを含むデータビューが表示されます。既存のデータ準備の場合は、データ準備パイプラインのグラフビューでノードをクリックしてデータビューに移動できます。
データビューでは、次のことができます。
- データを操作して、データ準備手順を作成する。
- Gemini の候補を適用する。
- セルにサンプル値を入力して、Gemini の候補の質を高める。
テーブルの各列の上に、統計プロファイル(ヒストグラム)が表示され、プレビュー行に各列の上位値の数が示されます。
グラフビュー
グラフビューは、データ準備の概要を視覚的に示します。データ準備を開くと、コンソールの [BigQuery Studio] ページのタブとして表示されます。グラフには、データ準備パイプラインのすべてのステップのノードが表示されます。グラフ上のノードを選択して、そのノードが表すデータ準備ステップを構成できます。
スキーマビュー
データ準備のスキーマビューには、アクティブなデータ準備ステップの現在のスキーマが表示されます。表示されるスキーマはデータビューの列と一致します。
スキーマビューでは、列の削除など、専用のスキーマ オペレーションを実行できます。また、[適用されたステップ] リストにステップが作成されます。
Gemini による提案
Gemini は、コンテキストに応じた候補を提案し、次のデータ準備タスクを支援します。
- 変換とデータ品質ルールの適用
- データの標準化と拡充
- スキーマ マッピングの自動化
各候補は、データ準備エディタの候補リストのカードに表示されます。このカードには次の情報が含まれています。
- ステップの大まかなカテゴリ(例: 行を保持、変換)
- ステップの説明(例:
COLUMN_NAME
がNULL
でない場合、行を保持する) - ステップの実行に使用される対応する SQL 式
候補カードをプレビューまたは適用したり、候補をファインチューニングできます。手順を手動で追加することもできます。詳細については、Gemini でデータを準備するをご覧ください。
Gemini からの候補をファインチューニングする際に、列で変更する内容の例を提供できます。
データ サンプリング
BigQuery はデータ サンプリングを使用して、データ準備のプレビューを提供します。サンプルは、各ノードのデータビューで確認できます。サンプルのデータは自動的に更新されません。詳細については、データ準備のサンプルを更新するをご覧ください。
書き込みモード
費用と処理時間を最適化するには、ソースからの新しいデータを増分処理するように、書き込みモードの設定を変更します。たとえば、BigQuery にレコードが毎日挿入されるテーブルがあり、変更されたデータを反映する Looker ダッシュボードがある場合は、BigQuery データ準備をスケジュールして、ソーステーブルから新しいレコードの増分を読み取り、宛先テーブルに伝播できます。
準備されたデータを宛先テーブルに書き込む方法を構成するには、データを増分処理してデータ準備を最適化するをご覧ください。
次の書き込みモードがサポートされています。
書き込みモードのオプション | 説明 |
---|---|
完全更新 | 準備したデータを挿入して、宛先テーブルのすべてのデータを置き換えます。テーブルは切り捨てられるのではなく、再作成されます。宛先テーブルへの書き込みのデフォルト モードは完全更新です。 |
追加 | 準備したデータを宛先テーブルの新しい行に挿入します。 |
増分 | 宛先テーブルに新しいデータか、増分列の選択に応じて変更されたデータのみを挿入します。 |
サポートされているデータ準備手順
BigQuery は、次のタイプのデータ準備ステップをサポートしています。
ステップの種類 | 説明 |
---|---|
ソース | 読み取る BigQuery テーブルを選択するか、結合ステップを追加すると、ソースが追加されます。 |
変換 | SQL 式を使用してデータのクリーニングと変換を行います。次の式の候補カードが表示されます。
手動変換ステップで有効な BigQuery SQL 式を使用することもできます。例:
詳細については、変換を追加するをご覧ください。 |
フィルタ | WHERE 句構文を使用して行を削除します。フィルタ ステップを追加するときに、検証ステップにすることもできます。詳細については、行をフィルタするをご覧ください。 |
検証 | 検証ルールの条件を満たす行をエラーテーブルに送信します。データが検証ルールに合格せず、エラーテーブルが構成されていない場合、データ準備は実行中に失敗します。 詳細については、エラーテーブルを構成して検証ルールを追加するをご覧ください。 |
結合 | 2 つのソースの値を結合します。テーブルは同じロケーションに存在する必要があります。結合キー列のデータ型は同じである必要があります。データ準備は、次の結合オペレーションをサポートしています。
詳細については、結合オペレーションを追加するをご覧ください。 |
宛先 | データ準備ステップの出力先を定義します。存在しない宛先テーブルを入力すると、データ準備によって現在のスキーマ情報を使用して新しいテーブルが作成されます。 詳細については、宛先テーブルを追加または変更するをご覧ください。 |
列を削除する | スキーマから列を削除します。この手順は、スキーマビューから行います。 詳細については、列を削除するをご覧ください。 |
データ準備実行のスケジューリング
データ準備手順を実行し、準備したデータを宛先テーブルに読み込むには、1 回限りまたは繰り返しのデータ準備実行をスケジュールします。データ準備は、データ準備エディタからスケジューリングし、BigQuery の [オーケストレーション] ページから管理できます。詳細については、データ準備をスケジュールするをご覧ください。
API
BigQuery データ準備には独自の API がありません。Dataform で BigQuery データ準備を使用する方法について詳しくは、bq-datapreparation-feedback@google.com までお問い合わせください。
制限事項
データ準備には次の制限があります。
- 特定のデータ準備の BigQuery データ準備のソース データセットと宛先データセットはすべて同じロケーションに存在する必要があります。詳細については、サポートされているロケーションをご覧ください。
- パイプラインの編集中、データとインタラクションは処理のために米国のデータセンターに送信されます。詳細については、サポートされているロケーションをご覧ください。
- データ準備では、自然言語 SQL クエリの生成はサポートされていません。
- BigQuery データ準備では、データ準備のバージョンの表示、比較、復元はサポートされていません。
- Gemini からのレスポンスは、データ準備パイプラインの設計時に指定したデータセットのサンプルに基づいています。詳細については、Gemini for Google Cloud がデータを使用する方法と、Gemini for Google Cloud Trusted Tester プログラムの利用規約をご覧ください。
ロケーション
データ準備は、すべての BigQuery ロケーションでデータ処理をサポートしています。特定のデータ準備のコピー元とコピー先のデータセットは同じロケーションに存在する必要があります。
料金
データ準備の実行とデータプレビュー サンプルの作成では BigQuery リソースが使用されます。このリソースの料金は、BigQuery の料金に記載されているとおりです。
データの準備は、Gemini in BigQuery の料金に含まれます。プレビュー期間中は、追加料金なしで BigQuery データ準備を使用できます。詳細については、Gemini in BigQuery を設定するをご覧ください。
割り当て
詳細については、Google Cloud で Gemini の割り当てをご覧ください。
次のステップ
- Gemini in BigQuery を使用してデータを準備する方法を学習する。
- データ準備のデプロイと実行を管理する方法を学習する。