SQL を使用して BigQuery でスケーラブルなデータ変換パイプラインを開発、運用します。
BigQuery で、キュレートされた最新の信頼できる文書化されたテーブルを開発する
データ アナリストとデータ エンジニアが同じリポジトリでコラボレーションできるようにする
SQL を使用して BigQuery でスケーラブルなデータ パイプラインを構築する
GitHub および GitLab と統合する
インフラストラクチャの管理を必要とせずにテーブルを最新の状態に保つ
利点
単一環境から SQL を使用して、BigQuery でスケーラブルなデータ パイプラインを開発、運用します。依存関係を追加する必要はありません。
Dataform により、データチームは、ソフトウェア エンジニアリングのベスト プラクティス(バージョン管理、環境、テスト、ドキュメントなど)に従って、SQL コードとデータアセットの定義を管理できます。
Dataform により、SQL パイプライン構築の複雑さが解消されます。データ アナリストは、SQL を使用して依存関係の管理、データ品質テストの構成、複雑なパイプラインのオーケストレーションを行うことができます。
主な機能
Dataform Core を使用すると、データ エンジニアやデータ アナリストは、テーブル定義の一元的な作成、依存関係の構成、列の説明の追加、データ品質アサーションの構成を SQL のみを使用して単一のリポジトリで行うことができます。
Dataform Core 関数は、既存のコードを変更することなく、段階的に追加して導入できます。
Dataform Core はオープンソースで、ローカルで使用できるため、特定のベンダーに依存することがなく、より高度なユースケースにも柔軟に対応できます。
Dataform は、テーブル間の依存関係に従って、最新バージョンのコードを使用してテーブルを更新する運用インフラストラクチャを処理します。Dataform が統合されたことで、リネージとデータ情報をシームレスに追跡できるようになります。SQL ワークフローを手動でトリガーすることも、Cloud Composer、Workflows、サードパーティのサービスを介してスケジュールすることもできます。
ウェブブラウザから離れることなく、単一のインターフェースからテーブルの定義、リアルタイムのエラー メッセージに関する問題の修正、依存関係の可視化、Git への変更の commit を行い、数分でパイプラインをスケジュールします。リポジトリを GitHub や GitLab などのサードパーティ プロバイダに接続します。変更を commit して、IDE から push または pull リクエストを行います。
ドキュメント