このドキュメントでは、Dataform のリポジトリのコンセプトを説明します。
各 Dataform リポジトリには、SQL ワークフローを構成する SQLX と JavaScript ファイルのコレクション、Dataform 構成ファイルとパッケージが格納されています。リポジトリ内のファイルは開発ワークスペースで操作します。
Dataform では、リポジトリは [Dataform] ページでリポジトリ ID のアルファベット順に表示され、並べ替えとフィルタリングを行えます。
各 Dataform リポジトリはサービス アカウントに接続されています。サービス アカウントは、リポジトリを作成するとき、または後でサービス アカウントを編集するときに選択できます。
デフォルトでは、Dataform はプロジェクト番号から派生した次の形式のサービス アカウントを使用します。
service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
Dataform では、変更の記録とファイルのバージョン管理のために、Git を使用します。各 Dataform リポジトリは Git リポジトリに対応しています。Dataform リポジトリを作成したら、リモートの GitHub、GitLab、または Bitbucket リポジトリに接続できます。
Dataform リポジトリでは、Dataform がリポジトリ コードを保存します。接続されたリポジトリで、サードパーティのリポジトリがリポジトリ コードを保存します。Dataform をサードパーティのリポジトリと連携させることで、Dataform 開発ワークスペースでその内容を編集して実行できるようになります。
Dataform リポジトリ ページは、次のコンポーネントで構成されています。
- [開発ワークスペース] タブ
- リポジトリに作成された開発ワークスペースを表示します。
- [リリース設定] タブ
- リリースを検査、作成、編集、削除できます。
- [ワークフローの実行ログ] タブ
- Dataform ワークフローの実行ログを表示します。
- [ワークフロー構成] タブ
- ワークフロー構成を検査、作成、編集、削除できます。
- [設定] タブ
- リポジトリの名前と場所が表示されます。サードパーティの Git リポジトリに接続されているリポジトリの場合は、サードパーティのリポジトリ ソース、デフォルトのブランチ名、シークレット トークンを表示します。サードパーティの Git リポジトリにリポジトリを接続し、Git 接続を編集するためのボタンが表示されます。
- [開発ワークスペースを作成] ボタン
- 開発ワークスペースを作成できます。
開発ワークスペースを作成して初期化したら、ワークフロー設定ファイルを編集して、リポジトリの次の Dataform 設定を構成できます。
- デフォルト データベース(Google Cloud プロジェクト ID)
- デフォルトのスキーマ(BigQuery データセット ID)
- デフォルトの BigQuery のロケーション
- アサーションのデフォルトのスキーマ(BigQuery データセット ID)
- ウェアハウス。
bigquery
に設定する必要があります - コンパイル中にプロジェクト コードで使用できるユーザー定義変数
Dataform リポジトリの設定の詳細については、Dataform コアのリファレンスの IProjectConfig をご覧ください。
次のステップ
- ワークスペースを作成して初期化する方法については、ワークスペースを作成するをご覧ください。
- Dataform リポジトリ設定の構成方法については、Dataform の設定を構成するをご覧ください。
- Dataform リポジトリをサードパーティの Git リポジトリに接続する方法については、サードパーティの Git リポジトリに接続するをご覧ください。
- ワークフローの実行ログを表示する方法については、実行ログのモニタリングをご覧ください。
- Dataform コンパイル リリースを作成する方法については、コンパイル リリースを作成するをご覧ください。
- リポジトリ サイズが Dataform での開発に与える影響については、リポジトリ サイズの概要をご覧ください。
- ワークフロー構成を使用して Dataform の実行をスケジュールする方法については、ワークフロー構成で実行をスケジュールするをご覧ください。
- Dataform でリポジトリを分割する方法については、リポジトリの分割の概要をご覧ください。