コンテンツに移動
データ分析

新たな柔軟性: BigQuery や Dataflow で Dataprep ジョブを実行

2021年4月20日
Google Cloud Japan Team

※この投稿は米国時間 2021 年 4 月 8 日に、Google Cloud blog に投稿されたものの抄訳です。

Cloud Dataprep by Trifacta は、分析や機械学習に使用する構造化データと非構造化データを視覚的に探索、クリーニング、準備できる、Google Cloud のインテリジェント データ サービスです。Dataprep はサーバーレス アーキテクチャであるため、デプロイや管理のためのインフラストラクチャが必要なく、スケーラビリティに優れています。

Google とデータ エンジニアリング プラットフォームである Trifacta のパートナーシップを通じて設計、構築された Dataprep を使用すると、あらゆるスキルレベルのユーザーがデータを準備できます。Dataprep にはグラフィカル ユーザー インターフェースがあるため、コードを記述してパイプラインを作成する必要はありません。また、Dataprep は、UI で操作が行われるたびにデータ変換の次のステップを自動的に予測して提案するため、エンドユーザーは簡単かつ柔軟に操作できます。Dataprep ユーザーは必要なすべての変換を行って、再現可能なデータ パイプラインを構築することができます。このパイプラインは、Google Cloud の処理能力を使用して大規模に実行できます。

Dataprep の BigQuery プッシュダウンの概要

処理能力に関連した機能として、このたび Dataprep に BigQuery プッシュダウンが新たに追加されました。BigQuery プッシュダウンを使用すると、BigQuery または Dataflow のどちらでジョブを実行するかを柔軟に選択できます。BigQuery を選択した場合、BigQuery SQL ステートメントでデータ パイプラインを部分的または完全に変換できるかどうかが Dataprep によって自動的に判断されます。BigQuery で実行できないパイプラインの部分は Dataflow で実行されます。BigQuery の機能を利用すると、特にフィルタ、結合、ユニオン、集計などの操作で効率性の高いデータ変換が可能になります。Dataprep BigQuery プッシュダウンは IAM と OAuth のサポートにより、パフォーマンスの向上、費用の最適化、セキュリティの向上を実現します。

今日のデータ中心の時代において、ETL(抽出、変換、読み込み)に相当する最新のものは ELT(抽出、読み込み、変換)になります。ELT フレームワークを使用すると、データに精通したビジネス ユーザーは IT チームにデータの変換と読み込みを行ってもらわずに、自分でデータを変換できるようになります。ELT を使用すれば、技術チームは BigQuery でデータの移動と管理のロジスティクスを処理でき、ビジネス ユーザーは SQL の機能を活用して中間的な変換を行えます。これにより、技術チームとビジネスチームの間でデータ変換の要件を最終決定するサイクルが短縮され、技術チームの負担が軽減されます。Dataprep BigQuery プッシュダウンは ELT フレームワークを補完して、データに精通したビジネス ユーザーと技術を重視する IT チームがデータ変換やデータ準備のタスクを行えるようにします。

まとめると、Dataprep の新しい BigQuery プッシュダウンにより、データ変換の高速化、費用の最適化、柔軟性の向上が可能になります。Google Cloud Marketplace で Dataprep の詳細をご覧になり、ぜひ実際にお試しください。

-データ分析担当プロダクト管理ディレクター Sudhir Hasbe

投稿先