Dataform プレビュー版
SQL を使用して BigQuery でスケーラブルなデータ変換パイプラインを開発、運用します。
-
BigQuery で、キュレートされた最新の信頼できる文書化されたテーブルを開発する
-
データ アナリストとデータ エンジニアが同じリポジトリでコラボレーションできるようにする
-
SQL を使用して BigQuery でスケーラブルなデータ パイプラインを構築する
-
GitHub および GitLab と統合する
-
インフラストラクチャの管理を必要とせずにテーブルを最新の状態に保つ
利点
データ処理アーキテクチャを簡素化する
単一環境から SQL を使用して、BigQuery でスケーラブルなデータ パイプラインを開発、運用します。依存関係を追加する必要はありません。
ソフトウェア開発プラクティスを使用したコラボレーション
Dataform により、データチームは、ソフトウェア エンジニアリングのベスト プラクティス(バージョン管理、環境、テスト、ドキュメントなど)に従って、SQL コードとデータアセットの定義を管理できます。
本番環境レベルの SQL パイプラインを構築する
Dataform により、SQL パイプライン構築の複雑さが解消されます。データ アナリストは、SQL を使用して依存関係の管理、データ品質テストの構成、複雑なパイプラインのオーケストレーションを行うことができます。
主な機能
主な機能
データ変換を管理するためのオープンソースの SQL ベースの言語
Dataform Core を使用すると、データ エンジニアやデータ アナリストは、テーブル定義の一元的な作成、依存関係の構成、列の説明の追加、データ品質アサーションの構成を SQL のみを使用して単一のリポジトリで行うことができます。
Dataform Core 関数は、既存のコードを変更することなく、段階的に追加して導入できます。
Dataform Core はオープンソースで、ローカルで使用できるため、特定のベンダーに依存することがなく、より高度なユースケースにも柔軟に対応できます。
データ パイプラインのフルマネージド サーバーレス オーケストレーション
Dataform は、テーブル間の依存関係に従って、最新バージョンのコードを使用してテーブルを更新する運用インフラストラクチャを処理します。Dataform が統合されたことで、リネージとデータ情報をシームレスに追跡できるようになります。SQL ワークフローを手動でトリガーすることも、Cloud Composer、Workflows、サードパーティのサービスを介してスケジュールすることもできます。
SQL で開発を行うための多機能のクラウド開発環境
ウェブブラウザから離れることなく、単一のインターフェースからテーブルの定義、リアルタイムのエラー メッセージに関する問題の修正、依存関係の可視化、Git への変更の commit を行い、数分でパイプラインをスケジュールします。リポジトリを GitHub や GitLab などのサードパーティ プロバイダに接続します。変更を commit して、IDE から push または pull リクエストを行います。
ドキュメント
ドキュメント
SQL ワークフローを作成して実行する
SQL ワークフローを作成し、Dataform と SQLX を使用して BigQuery で実行する方法を学習します。
コードのバージョン管理
Dataform でバージョン管理を使用して開発状況を管理する方法をご覧ください。
料金