このドキュメントは、Dataform におけるリポジトリのコンセプトを理解するうえで役立ちます。
各 Dataform リポジトリには、SQL ワークフローを構成する SQLX ファイルと JavaScript ファイルのコレクション、Dataform 構成ファイルとパッケージが格納されます。リポジトリ内のファイルは開発ワークスペースで操作します。
Dataform では、リポジトリは [Dataform] ページでリポジトリ ID のアルファベット順に表示され、並べ替えとフィルタリングを行えます。
各 Dataform リポジトリは、サービス アカウントに接続されます。サービス アカウントは、リポジトリの作成時、またはサービス アカウントの編集時に選択できます。
デフォルトでは、Dataform はプロジェクト番号から派生したサービス アカウントを次の形式で使用します。
service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
Dataform では、変更の記録とファイルのバージョン管理のために、Git を使用します。各 Dataform リポジトリは、Git リポジトリに対応しています。Dataform リポジトリを作成したら、リモートの GitHub、GitLab、または Bitbucket リポジトリに接続できます。
Dataform リポジトリには、Dataform がリポジトリ コードを保存します。接続されたリポジトリでは、サードパーティのリポジトリにリポジトリ コードが保存されます。Dataform は、サードパーティのリポジトリとやり取りして、Dataform 開発ワークスペースでコンテンツを編集および実行できます。
Dataform リポジトリ ページは、次のコンポーネントで構成されています。
- [Development workspaces] タブ
- リポジトリ内に作成された開発ワークスペースを表示します。
- [リリース構成] タブ
- リリースを検査、作成、編集、削除できます。
- [ワークフローの実行ログ] タブ
- Dataform ワークフロー実行ログを表示します。
- [Workflow configuration] タブ
- ワークフロー構成の検査、作成、編集、削除を行うことができます。
- [設定] タブ
- リポジトリの名前と場所が表示されます。サードパーティの Git リポジトリに接続されているリポジトリの場合、サードパーティのリポジトリ ソース、デフォルトのブランチ名、シークレット トークンを表示します。サードパーティの Git リポジトリにリポジトリを接続し、Git 接続を編集するためのボタンが表示されます。
- [開発ワークスペースを作成] ボタン
- 開発ワークスペースを作成できます。
開発ワークスペースを作成して初期化したら、dataform.json
ファイルを編集して、リポジトリの次の Dataform 設定を構成できます。
- デフォルト データベース(Google Cloud プロジェクト ID)
- デフォルト スキーマ(BigQuery データセット ID)
- デフォルトの BigQuery ロケーション
- アサーションのデフォルト スキーマ(BigQuery データセット ID)
- ウェアハウス。
bigquery
に設定する必要があります。 - コンパイル時にプロジェクト コードで使用できるユーザー定義変数
Dataform リポジトリ設定の詳細については、Dataform コア リファレンスの IProjectConfig をご覧ください。
次のステップ
- ワークスペースを作成して初期化する方法については、ワークスペースの作成をご覧ください。
- Dataform リポジトリ設定の構成方法については、Dataform 設定の構成をご覧ください。
- Dataform リポジトリをサードパーティの Git リポジトリに接続する方法については、サードパーティの Git リポジトリに接続するをご覧ください。
- ワークフローの実行ログを確認する方法については、実行ログのモニタリングをご覧ください。
- Dataform コンパイル リリースの作成方法については、コンパイル リリースの作成をご覧ください。
- リポジトリ サイズが Dataform の開発に与える影響の詳細については、リポジトリ サイズの概要をご覧ください。
- ワークフロー構成で Dataform 実行をスケジュールする方法については、ワークフロー構成で実行をスケジュールするをご覧ください。
- Dataform でのリポジトリ分割の詳細については、リポジトリの分割の概要をご覧ください。