Google Cloud Dataprep by Trifacta クイック リファレンス
Google Cloud Japan Team
※この投稿は米国時間 2021 年 6 月 23 日に、Google Cloud blog に投稿されたものの抄訳です。
データをビジネスに活用しようとお考えでしたら、Dataprep by Trifacta をぜひご検討ください。利益率の最適化や新たな市場開拓機会の特定、次善の提案の予測、不正行為への対応、規制義務を満たすための報告など、ビジネスのあらゆる場面でデータが必要になります。意思決定にデータを活用する立場にあるリーダーも、クリーンで信頼できるデータを提供するサポート担当者も、データを準備して使用できる状態にするのに多大な手間(そして精神的負担)がかかると感じていらっしゃるはずです。データの場所、アクセス方法、データの中身、データの信頼性、使用できるフォーマットへの変換方法、他の一連のデータとの結合方法、これらのプロセスを自動化する方法など、面倒で手間のかかるプロセスを Dataprep でシームレスかつ楽しい体験にする方法をこれからご紹介します。
データの準備とは
データ ラングリングとも呼ばれるデータの準備は、アナリティクスとデータ サイエンスのニーズに合わせて、乱雑に散らばった元データにアクセスして評価したうえで、クリーンで一貫性のあるビューに自社で変換する作業です。データの準備は重要な作業ですが時間もかかります。データチームは元データを高品質で分析可能な出力結果に変換するのに業務時間の最大 80% を費やしています。
元データをクリーンなアセットにする準備作業は次の 6 つの反復ステップに分かれています。
探索
このステップではデータへのアクセス方法、データの中身、データの信頼性などの確認事項がありますが、Dataprep ではさまざまなデータソースにアクセスしてデータの特徴を探索し、その価値をスピーディに把握できます。また、データ型の推論、列レベルのプロファイル、インタラクティブな品質バー、ヒストグラムを使うことで、トレンドとデータの問題を即座に理解して変換プロセスを進められます。
構造化
データを今のままのフォーマットで使用できるかも気になるところです。構造化とは、データの形式やスキーマを変更する作業のことです。列の分割、行のピボット、フィールドの削除はすべて構造化にあたります。Dataprep は、対象のデータとデータに適用したインタラクションのタイプに応じて、次善の変換方法を予測して提案します。
クリーニング
このステップでは、すべての日付が有効かどうか、カテゴリが正しいかどうか、SKU が欠落していないかを確認します。Dataprep は欠落している値や一致しない値などのデータ品質の問題をあぶりだして、適切な変換(日付のフォーマット設定、一貫性のあるリストへのカテゴリの正規化、SKU の置換または削除)を提案してデータセットで問題のある値を修正します。
拡充
あるデータを別に保持しておいて、パブリック リポジトリや社内リポジトリの他のデータセットでそのデータを強化したい場合もあります。必要なデータが複数のファイルやアプリケーション、データベースに散らばっていることもあります。必要なインサイトをすべて集めるには、さまざまなデータソースを結合、集約して既存のデータセットを拡充させる必要があります。Dataprep では、データ ディクショナリを素早く検索したり、異なるデータセットの結合とユニオンを実行したりできます。
検証
このステップでは、データに適用した変換が信頼できるかどうか、結果が正確かどうかを確認します。Dataprep がプロファイリングを行い、変換されたデータセット全体のデータ品質インジケーターを提供します。このステップでは、最初に特定されなかったデータの不正確さに関して最終チェックを実行できます。さまざまな分析に使用するために公開する前に、出力されたデータセットの構造とコンテンツが意図したとおりになっているかを検証します。
公開
このステップでは、クリーニングされたデータ出力の使用方法、その更新頻度を検討する必要があります。データの構造化、クリーニング、拡充、検証が問題なく完了したら、下流のアナリティクス プロセスで使用するために、集めた出力を公開します。Dataprep には、データ パイプラインを自動化し、データを使用するアナリティクス アプリケーションに公開するための機能がすべて揃っています。
Dataprep の主な機能
組み込みのデータ品質の評価と検証
データにアクセスすると、Dataprep がそれを即座に探索し、馴染みがあって直感的なグリッド インターフェースにデータを表示します。表示されているものをそのまま信頼できます。Dataprep には値の分布、パターン形式、注目すべき外れ値が表示されます。また、データ品質の問題を追跡、解決するデータ モニタリング ルールを作成するための提案も利用できます。インターフェースには変換が適用されたデータの状態がリアルタイムで反映されます。そのため、変換後もデータの状態をいつでも正確に把握できます。
自動化されたデータ パイプライン
Dataprep で作成したデータ準備レシピは、データ エンジニアやオペレーション チームがオペレーション化して、自信を持って管理、モニタリングできます。Dataprep のエンドツーエンドのデータ パイプラインでは、Dataflow と BigQuery の自動スケーリング処理機能を活用して、ギガバイトからペタバイトまであらゆるサイズのデータに対応します。さらに、Dataprep は Cloud IAM / OAuth と連携することでデータ セキュリティと信頼性を高めています。さらに驚くべきことに、コードを使わずにマウスだけで Dataprep を操作できます(必要な場合はコードも使用可能)。
データ変換の可視化とスピードアップ
最終的な目標は、信頼性の高い分析用データを短時間で用意することです。しかし、データの量は膨大で、適用すべきルールも大量にあります。そんな場合でも、Dataprep なら機械学習ベースの提案でデータの変換とクリーニングを行うことができます。最も関連性の高い提案を選択するか、ニーズに合わせて提案を修正します。数回のクリックで、標準化、構造化、結合、ユニオン、ピボット、ピボット解除、集約、式の計算を実行して、変換に対するフィードバックを即座に取得できます。データの準備作業がゲームのように楽しくなります。ただ一つ残念なのは、楽しくなったデータ準備作業にかかる時間が今より 90% 削減される点です。
Dataprep の仕組み
Dataprep by Trifacta は、広範な Google Cloud Smart Analytics ポートフォリオの一部で、Google Cloud ネイティブのサーバーレス データ準備ソリューションです。Dataprep では、データ アナリスト、ビジネス アナリスト、データ エンジニア、データ サイエンティストがビッグデータを視覚的に探索、クリーニング、準備できます。
Dataprep は BigQuery、Cloud Storage、Google スプレッドシート、その他数百ものクラウド アプリケーション、従来型のデータベースと連携できるので、どんなデータでも変換、クリーニングできます。
Dataprep は Dataflow と BigQuery を基盤として構築されています。そのため、デザインしたデータ変換ルールとクリーニング ルールを簡単にスケールして、Dataprep データ変換レシピを Dataflow ジョブか BigQuery の SQL ステートメントに変換することで、サイズに関係なくデータを変換できるのです。
BigQuery か Cloud Storage でデータの準備ができたら、データポータルか Looker でデータを分析し、Vertex AI サービスを使って機械学習モデルのトレーニングができるだけでなく、Qlik や Tableau など他社のアナリティクス パートナー ソリューションでインサイトを得ることができます。
Google Cloud のネイティブ サービスである Dataprep は、API を使って管理、自動化し、Cloud Composer や Cloud Functions などで制御できます。
まとめ
今回の説明は以上です。さっそく Dataprep に触れてみたい場合は、簡単な手順でお試しいただけます。Google スプレッドシート、Dataprep、BigQuery、データポータルを活用したこちらのデータ ウェアハウス デザイン パターンをお試しいただければ、包括的かつスケーラブルなアナリティクス ソリューションについて知ることができます。
-Trifacta ソリューションおよびパートナー マーケティング担当シニア ディレクター Bertrand Cariou
-Google デベロッパー アドボケイト Priyanka Vergadia