コンテンツに移動
データ分析

Dataprep の AI を活用した新しい機能でラングリング作業を強化

2020年4月16日
Google Cloud Japan Team

※この投稿は米国時間 2020 年 4 月 9 日に、Google Cloud blog に投稿されたものの抄訳です。

Cloud Dataprep by Trifacta の提供を開始して以来、私たちがフォーカスしたのは、データ プロフェッショナルにもっと楽に効率よくデータの準備作業を進めてもらえるようにすることです。絶対楽しくしてみせる(ときには、楽しいを超えた面白さも感じてもらいたい!)という気概は今も変わりません。場合によっては、夢中になってしまうこともあるようです)。

Dataprep の最新リリースでは、ラングリング作業をさらに一歩進化させるために AI ドリブンの高度な新機能を導入しました。Dataprep の主要な変換機能を改善し、データ クリーニングはもちろん、ラングリング レシピをマッピングして実行する作業もさらに簡単になり、時間も短縮できます。 

Dataprep の多くの部分に AI ドリブンの機能を浸透させた結果、複雑な分析ケースでも最適なデータ変換方法を提案したり、クリーニング方法を自動的に見つけ出したりできるようになりました。組織がその業務領域を問わずデータドリブンへの変革を進めるにあたり、データにアクセスし活用するビジネスユーザーを助けてきたのは、私たちのこの取り組みなのです。 

取り込み、保管、処理、レポート作成、機械学習などのスマートな分析ポートフォリオに完全に統合されたデータ準備機能により、データ サイエンティストやアナリストのみならず、誰でも使いこなせるセルフサービス分析が現実のものになりつつあります。

いくつかの新機能に注目し、それらを使うとデータ準備がどのように簡単になるのかをご紹介します。

高速のターゲット設定でのファジー一致の向上

Dataprep を使用してデータを準備する場合、探索モードを使用するとデータの価値と推奨される使い方を把握できます。また、探索モードを使用して、既存のデータ ウェアハウスや、データレイク内の一部の本番環境ゾーンを拡張することもできます。  

後者の場合、高速のターゲット設定を使用して、ラングリングのレシピを BigQuery の既存のデータスキーマ、または Cloud Storage のファイルにすばやくマッピングできます。高速のターゲット設定を使用すると、データ変換ルールを既存のデータベース スキーマに一致させる必要がありません。Dataprep が AI を使用して見つけ出すからです。最新のリリースでは、厳密な列名の等価性によるスキーマの一致に加えて、列名の類似性または列の内容によってターゲット スキーマと列を自動アライメントするファジーマッチング アルゴリズムが追加されました。以下のようになります。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/1_wRhzOtt.gif

Dataprep がレシピ列と既存データスキーマの間の最良の一致を提案すると、ユーザーは提案を受け入れるか、変更するか、レシピに戻ってデータが一致するよう修正することができます。これは、データ ウェアハウスの読み込みを高速化してデータ分析に集中できるように支援するための、もう 1 つの機能です。

ローカル設定の追加と日時インターフェースの改善 

新しいデータセットで作業する際、Dataprep が最初に認識するのは、各列のデータ構造とデータ型です。AI アルゴリズムの助けを借りてこの認識結果を出すことで、予想されるデータ型に基づくデータエラーと、それらのデータ型のクリーニング方法をより簡単に特定することができます。ただし、日付や通貨などの一部のデータ型は、ユーザーの所在地域やデータの属する地域によっては推定が難しい場合があります。このような理由から、ローカル設定オプション(プロジェクト レベルとユーザーレベル)を追加して、Dataprep がデータ型(特にデータの形式があいまいな場合の日付と時刻)を推定できるようにしました。

たとえば下の図のようにローカル設定を [France] に変更すると、データはフランス語の形式(たとえば日付は dd/mm/yyyy、つまり 10-Mars-2020 の形式)であるとみなすように Dataprep に指示することになります。推定アルゴリズムにより、データの品質スコアとともに、フランス語の形式でその特定の日付列をクリーニングするための提案ルールが確定します。これにより、作業がずっと簡単になります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_G1sNF3H.max-1000x1000.jpg

データ型の管理についてはさらに、日付/時刻データ型のメニューも合理化して、下の図に示すように 100 件もの日付/時刻形式のリストから目的の形式を探し出す代わりに、絞り込み検索で簡単に見つけられるようにしました。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/3.gif

マクロのインポート / エクスポートによるプロジェクト間のデータ整合性の向上 

データ準備のレシピを検討するに従い、同様のデータ品質の問題やそれらを解決するための同様の方法など、データパターンの問題が必ず表面化してくるものです。1 つの列をクリーニングするのに何ステップもの作業が必要になることもありますが、同じデータ問題が発生するたびにこれらのステップを一から書き直すようなことはしたくないはずです。そのような場合に便利なのがマクロです。

マクロは一連のステップを 1 つのアクションとしてまとめたもので、カスタマイズが可能で他のデータ準備のレシピにも使用できます。つまり、データ変換を適用するマクロを 1 つ定義したら他のレシピでも再利用できるため、マクロの恩恵を同僚と共有することができます。とりわけ、データレイクのサンドボックスを開き、ビジネス ユーザーにデータの検出や変換を行うためのアクセス権を付与する場合に役立ちます。データ クリーニングに必要な一連のマクロを定義してユーザー間で共有すれば、作業に一貫性が生まれ、データの進化に合わせてマクロを進化させることもできます。  

この新しいマクロのインポートおよびエクスポート機能を活用して、部門間で、またはプロジェクトの各段階(開発、テスト、本番など)をまたいで、Dataprep のデプロイの一貫性を確保できます。さらに、バックアップの作成やマクロの監査証跡の作成も可能です。また、既存の Wrangler Exchange コミュニティにマクロを投稿したり、投稿されたマクロを使用したりできるほか、よく使用されるマクロのリポジトリを構築して、Dataprep の Wrangle 言語の柔軟性を拡張することもできます。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/4.gif

Dataprep には、ダウンロード可能なプロファイル結果、新しい三角関数や統計関数、ショートカット オプションをはじめとする多くの機能が追加されています。詳しくは、リリースノートDataprep の詳細をご覧ください。

- By Trifacta 社ソリューションおよびパートナー マーケティング部門シニア ディレクター Bertrand Cariou

投稿先