Cloud Dataprep by Trifacta
分析や機械学習に使用するデータを視覚的に探索、クリーニング、準備するためのインテリジェント クラウド データ サービス

インテリジェントなデータ準備
Cloud Dataprep by Trifacta は、分析、レポート、機械学習に使用する構造化データと非構造化データを視覚的に探索、クリーニング、準備できるインテリジェント データ サービスです。Cloud Dataprep はサーバーレスで、あらゆる規模で稼働します。インフラストラクチャのデプロイや管理は必要ありません。最適なデータ変換操作が UI 入力のたびに提案、予測されるため、コードを記述する必要がありません。また、スキーマ、データ型、可能な結合、異常が自動的に検出されるので、データのプロファイリング作業に時間を費やすことなく、データ分析に専念できます。

サーバーレスのシンプルさ
Cloud Dataprep は、Google パートナーの Trifacta が運営する統合サービスで、業界トップクラスのデータ準備ソリューション、Trifacta Wrangler を基盤としています。Google と Trifacta の密接な連携によってシームレスなユーザー エクスペリエンスが実現し、事前のソフトウェア インストール、追加のライセンス費用、継続的な運用上のオーバーヘッドが不要となります。Cloud Dataprep はフルマネージドで、お客様のデータ準備ニーズに応じてオンデマンドでスケーリングされるので、お客様は分析に専念できます。

迅速なデータ探索と異常の検出
視覚的なデータ分布により、データを瞬時に把握し、探索できます。Cloud Dataprep はスキーマ、データ型、可能な結合、異常(欠損値、外れ値、重複など)を自動的に検出するので、データのプロファイリング作業に時間を費やすことなく、すぐにデータの探索と分析にとりかかることができます。

簡単かつパワフルなデータ準備
Cloud Dataprep は、最適なデータ変換操作を UI で操作を行うたびに自動で提案、予測します。変換のシーケンスを定義しておけば、Cloud Dataprep が内部で Cloud Dataflow を使用し、あらゆるサイズの構造化データセットまたは非構造化データセットをわずか数回のクリックで処理できるようにします。そのため、コードを記述する必要がありません。
Cloud Dataprep 導入事例
Cloud Dataprep のアーキテクチャ
Cloud Dataprep の特長
予測変換
Cloud Dataprep は独自の推定アルゴリズムを使用し、ユーザーのデータ選択によりデータ変換の意図を解釈します。ランク付けした一連の候補と選択されたデータに一致するパターンを自動的に生成します。
パラメータ化
更新ごとに変更されるファイルパスの一部を変数としてパラメータ化することで、同一データセットの複数インスタンスに対して同じレシピを実行できます。この変数は、ジョブ実行時に必要に応じて変更できます。
共同作業
チームの共同作業では、複数のユーザーが同じアセットで作業できたり、良質な作業のコピーを作成して他のユーザーがテンプレートとして使用したりできると効率的です。Cloud Dataprep を使用すると、ユーザーが同じフロー オブジェクトでリアルタイムに共同作業できます。また、他のユーザーが別の作業に使用するためのコピーを作成することもできます。
パターン マッチング
列パターン マッチングを使用すると、関心のあるデータパターンを特定し、それらをインターフェースに表示してレシピの作成に使用できます。さらに、レシピのステップでは、正規表現や Cloud Dataprep パターンを適用してパターンを検索し、データセット内の一致するデータを変換できます。
視覚的なプロファイリング
対話形式の視覚的なデータ分布を使用してデータを確認、探索することで、検出、クレンジング、変換に役立ちます。データを視覚的に示すことによって、大量のデータも解釈しやすくなります。また、Cloud Dataprep の革新的なプロファイリング技術により、重要な統計情報が動的かつ使いやすい形式で可視化されます。
サンプリング
Cloud Dataprep はパフォーマンスを最適化するために、クライアント アプリケーションでの表示と操作に使用するデータサンプルを 1 つ以上生成しますが、これらのサンプルのサイズ、範囲、作成方法は簡単に変更できます。
スケジュール
フロー内のレシピを繰り返し実行するか、必要に応じて実行するかをスケジュール設定できます。スケジュール設定されたジョブが正常に実行されると、指定した出力場所(指定した公開形式で利用できる場所)で、ラングリングされた出力を収集できます。
ターゲット マッチング
インポートまたは作成したデータセットを使用してターゲット スキーマを定義し、既存のレシピに割り当てることで、ラングリングの作業を体系化してスピードアップします。ターゲットは Transformer ページに表示され、ラングリングする必要のあるデータセット全体か、データセットの選択した列に対して適用できます。
一般的なデータ型
CSV、JSON、リレーショナル テーブル形式で保存された構造化データセットまたは非構造化データセットを、メガバイトからペタバイトまでサイズを問わず、同じように簡単に変換できます。
Google Cloud Platform に統合
Cloud Storage や BigQuery に保存されたデータ、あるいはデスクトップのデータを処理できます。その後、調整したデータを保存、分析、可視化、機械学習のために BigQuery や Cloud Storage にエクスポートできます。Cloud Identity and Access Management によって、ユーザー アクセスとデータ セキュリティがシームレスに管理されます。
Cloud Dataprep の料金
Cloud Dataprep は、サンプルデータを操作してデータ準備のルールを定義できるインタラクティブなウェブ アプリケーションです。このアプリケーションは、サンプルデータの探索、変換ステップの定義、変換されたサンプルのエクスポートに使用でき、料金はかかりません。データセット全体に対するフローの実行については、Cloud Dataprep ジョブ(Google Cloud Dataflow を使用)として実行することもできます。詳しくは、料金ガイドをご覧ください。
リソース
