リポジトリの概要

このドキュメントでは、Dataform のリポジトリのコンセプトを説明します。

各 Dataform リポジトリには、SQL ワークフローを構成する SQLX と JavaScript ファイルのコレクション、Dataform 構成ファイルとパッケージが格納されています。リポジトリ内のファイルは開発ワークスペースで操作します。

Dataform では、リポジトリは [Dataform] ページでリポジトリ ID のアルファベット順に表示され、並べ替えとフィルタリングを行えます。

Dataform に移動

各 Dataform リポジトリは、サービス アカウントに接続されます。サービス アカウントは、リポジトリの作成時、またはサービス アカウントの編集時に選択できます。

デフォルトでは、Dataform はプロジェクト番号から派生したサービス アカウントを次の形式で使用します。

service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com

Dataform では、変更の記録とファイルのバージョン管理のために、Git を使用します。各 Dataform リポジトリは、Git リポジトリに対応しています。Dataform リポジトリを作成したら、リモートの GitHub、GitLab、または Bitbucket リポジトリに接続できます。

Dataform リポジトリには、Dataform がリポジトリ コードを保存します。接続されたリポジトリで、サードパーティのリポジトリがリポジトリ コードを保存します。Dataform をサードパーティのリポジトリと連携させることで、Dataform 開発ワークスペースでその内容を編集して実行できるようになります。

Dataform リポジトリ ページは、次のコンポーネントで構成されています。

[開発ワークスペース] タブ
リポジトリに作成された開発ワークスペースを表示します。
[リリース構成] タブ
リリースを検査、作成、編集、削除できます。
[ワークフローの実行ログ] タブ
Dataform ワークフローの実行ログを表示します。
[ワークフロー構成] タブ
ワークフロー構成を検査、作成、編集、削除できます。
[設定] タブ
リポジトリの名前と場所が表示されます。サードパーティの Git リポジトリに接続されているリポジトリの場合は、サードパーティのリポジトリ ソース、デフォルトのブランチ名、シークレット トークンを表示します。サードパーティの Git リポジトリにリポジトリを接続し、Git 接続を編集するためのボタンが表示されます。
[開発ワークスペースを作成] ボタン
開発ワークスペースを作成できます。

開発ワークスペースを作成して初期化したら、workflow_settings.yaml ファイルを編集して、リポジトリの次の Dataform 設定を構成できます。

  • デフォルト データベース(Google Cloud プロジェクト ID)
  • デフォルトのスキーマ(BigQuery データセット ID)
  • デフォルトの BigQuery のロケーション
  • アサーションのデフォルトのスキーマ(BigQuery データセット ID)
  • ウェアハウス。bigquery に設定する必要があります
  • コンパイル中にプロジェクト コードで使用できるユーザー定義変数

Dataform リポジトリの設定の詳細については、Dataform コアのリファレンスの IProjectConfig をご覧ください。

次のステップ