コンテンツに移動
データ分析

Dataform の一般提供開始のお知らせ: BigQuery で SQL パイプラインの開発、バージョン管理、デプロイが可能に

2023年6月9日
Google Cloud Japan Team

※この投稿は米国時間 2023 年 6 月 6 日に、Google Cloud blog に投稿されたものの抄訳です。

SQL パイプラインを構築しているデータチームは、さまざまなカスタム プロセスやカスタム インフラストラクチャを手動で組み合わせて利用することを余儀なくされています。その結果、開発に遅れが生じ、問題のトラブルシューティングに時間をとられ、また多くの場合、データ アナリストは構築プロセスに貢献できません。それを解消できるように、このたび Dataform の一般提供を開始いたしました。データチームは Dataform を使用することで、BigQuery で SQL パイプラインの開発、バージョン管理、デプロイを行えるようになります。Dataform は、あらゆるスキルレベルのデータ エンジニアやデータ アナリストが、ソフトウェア エンジニアリングのベスト プラクティス(Git によるバージョン管理、CI / CD、コードのライフサイクル管理など)に沿いながら、BigQuery で本番環境レベルの SQL パイプランを構築できるようにサポートします。

Dataform は UI と API を 1 つに統合したものです。これを使用して、スケーラブルな SQL パイプラインの構築、バージョン管理、運用化を実現できます。データ実務者はこの 1 つの環境内で、新しいテーブルの開発期間の短縮、データ品質の確保、パイプラインの運用化を最小限の労力で行うことができるため、組織全体でデータを活用しやすくなります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_dataform_diagram.max-2200x2200.jpg

BigQuery でのエンドツーエンドの SQL パイプライン エクスペリエンス

Dataform を利用することで、データチームや分析担当チームは以下のことができるようになります。

  • SQL を使ったコード内での複雑なパイプラインの開発。SQL 開発に自動化された依存関係管理、データ品質テスト、コード再利用、テーブル文書化の機能をもたらすオープンソースのフレームワークである Dataform コアを使用してパイプライン開発を行えます。

  • ウェブでのパイプラインの開発を BigQuery コンソールから行う。ユーザーは、個々の分離されたワークスペースで作業して、パイプラインの依存関係の可視化、リアルタイムのエラー取得、Git によるコードのバージョン管理を行えます。

  • SQL パイプラインのデプロイを、さまざまな実行環境で、スケジュールに沿って、または API トリガーを介して行う。このとき、インフラストラクチャを管理する必要はありません。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/dataform-in-three-steps.gif

あらゆるデータ実務者のための統合されたエクスペリエンス

Dataform により、1 つのツールと 1 つの開発プロセスを通して、組織全体で SQL パイプライン開発を標準化できます。

データチームは、Git、CI / CD、コードのライフサイクル管理といった、ソフトウェア エンジニアリングのベスト プラクティスに沿って、共同作業を行えます。

データ エンジニアは、開発、ステージング、本番の実行環境で、インフラストラクチャを管理する必要なしに、コードのライフサイクルとスケジュールを管理できます。

さらに、データ アナリストはウェブ インターフェースから SQL パイプラインの開発、テスト、バージョン管理を行うことができるため、既存のパイプラインに貢献することも、独自のパイプラインを管理することもできます。

お客様の声

「1,000 人を超える規模で共同作業を行う企業として、以前は BigQuery データを管理するためのガバナンスと標準がないことに苦労していました」と、Hurb のデータおよびアナリティクス担当ディレクター Lucas Rolim 氏は語ります。「Dataform は、バージョニング、コードレビュー、commit 履歴といったソフトウェア開発のベスト プラクティスを取り入れるための共通のインターフェースを当社のデータチームにもたらしています。」

「Dataform を利用する前は、データの変換に内製開発のシステムを使用しており、ニーズに合わせたスケーリングに苦労していました」と、Intuit Mailchimp のデータ エンジニアリング担当マネージャー Neil Schwalb 氏は言います。「Dataform を導入し、そして最近 Google Cloud 上の Dataform を導入した後は、大量のデータに対してデータ変換レイヤを高速化し、テーブル数 300 を超えるまでにスケールアップできました。Google Cloud と Dataform のインテグレーションは、テストの高速化、ロギングの明確化、アクセシビリティの拡大を通して、開発ワークフローのスピードアップも実現しました。」

「この数年間、OVO の(二酸化炭素排出量)ゼロへの取り組みにおいて、データ サイエンス、ML、AI の必要性が大きく高まってきています。当社は急成長を遂げており、データ サイエンティストの各チームが、データ パイプラインと ML パイプラインの構築を担ってきました。これまで、新しい機能を迅速にデプロイして、お客様に実質的な効果をもたらすことはできていましたが、スケーラビリティが不足していました」と、OVO のデータ担当ディレクター Katie Russell 博士は語ります。「Dataform の導入によって、柔軟性や開発速度を犠牲にすることなく、整合性を確保できるようになりました。Dataform を利用することで、デプロイ プロセスが迅速化され、品質に関する問題が減少し、データの文書化しやすさと見つけやすさが向上しました。」

詳しい情報

Dataform の利用について詳しくは、ウェブサイトまたはドキュメントをご覧ください。



- プロダクト マネージャー Guillaume-Henri Huon
- エンジニアリング マネージャー Lewis Hemens

投稿先