Cloud Dataprep by Trifacta

分析と機械学習に使用するデータを視覚的に探索、クリーニング、準備できるインテリジェントなクラウド データサービス。

このプロダクトのドキュメントを見る

インテリジェントなデータ準備

インテリジェントなデータ準備

Cloud Dataprep by Trifacta は、分析、レポート作成、機械学習に使用する構造化データおよび非構造化データを視覚的に探索、クリーニング、準備できるインテリジェントなデータサービスです。Cloud Dataprep はサーバーレスで、あらゆる規模で稼働します。インフラストラクチャのデプロイや管理は必要ありません。また、理想的なデータ変換操作が UI 入力のたびに提案、予測されるため、コードを書く必要がありません。

サーバーレスのシンプルさ

Cloud Dataprep は、Google パートナーの Trifacta が運営する統合パートナー サービスであり、業界トップクラスのデータ準備ソリューションである Trifacta Wrangler をベースにしています。Google は Trifacta との緊密な連携によってシームレスなユーザー エクスペリエンスを実現しています。そのため、事前のソフトウェア インストールと追加のライセンス費用は不要で、継続的な運用オーバーヘッドも発生しません。Cloud Dataprep はフルマネージドのサービスであり、お客様のデータ準備のニーズの拡大に応じてオンデマンドでスケーリングされるので、お客様は分析に専念できます。

迅速なデータ探索と異常の検出

視覚的なデータ分布により、データを瞬時に把握し、探索できます。Cloud Dataprep はスキーマ、データ型、可能な結合、異常(欠損値、外れ値、重複値など)を自動的に検出するので、時間のかかるデータ品質評価作業を省略して、すぐにデータの探索と分析に着手できます。

簡単かつパワフルなデータ準備

UI で操作を行うたびに、Cloud Dataprep は次の最適なデータ変換を自動的に提案、予測します。変換のシーケンスを定義しておけば、Cloud Dataprep は内部的に Cloud Dataflow を使用し、あらゆるサイズの構造化データセットまたは非構造化データセットをわずか数回のクリックで処理できるようにします。そのため、コードを記述する必要がなくなります。

特長

予測変換

Cloud Dataprep は独自の推定アルゴリズムを使用し、ユーザーのデータ選択からデータ変換の意図を推定します。これにより、ランク付けされた候補セットと、選択されたデータに一致するパターンが自動的に生成されます。

充実した変換

何百もの変換関数を利用して、データを必要なアセットに変換します。マウスを 1 回クリックするだけで、集約、ピボット、アンピボット、結合、ユニオン、抽出、計算、比較、条件、マージ、正規表現などを適用できます。

パラメータ化

更新のたびに変更されるファイルパスの一部を変数としてパラメータ化することで、同一データセットの複数インスタンスに対して同じレシピを実行できます。この変数は、ジョブ実行時に必要に応じて変更できます。

共同作業

チームの共同作業では、複数のユーザーが同じアセットで作業したり、質の高いアセットのコピーを作成して他のユーザーがテンプレートとして使用したりできると効率的です。Cloud Dataprep を使用すると、ユーザーは同じフロー オブジェクトでリアルタイムに共同作業できます。また、他のユーザーが別の作業に使用するためのコピーを作成することもできます。

パターン マッチング

列パターン マッチングを使用すると、関心のあるデータパターンを特定し、それらをインターフェースに表示してレシピの作成に使用できます。さらに、レシピステップでは、正規表現や Cloud Dataprep パターンを適用して、パターンを検索したり、データセット内の一致するデータを変換したりできます。

標準化

スペルや言語に依存しない発音に基づく類似性で値をグループ化し、一貫性のある値の標準化されたクラスタを作成します。

アクティブ プロファイリング

インタラクティブな視覚的分布の形でデータを表示して探索することで、検出、クレンジング、変換を容易にします。データを視覚的に示すことによって、大量のデータも解釈しやすくなります。また、Cloud Dataprep の革新的なプロファイリング技術により、重要な統計情報が動的かつ使いやすい形式で可視化されます。

サンプリング

Cloud Dataprep は、パフォーマンスを最適化するために、クライアント アプリケーションでの表示と操作に使用するデータサンプルを 1 つ以上生成します。ただし、こうしたサンプルのサイズ、範囲、作成方法は簡単に変更できます。

スケジュール

フロー内のレシピを繰り返し実行するか、必要に応じて実行するかをスケジュール設定できます。スケジュール設定したジョブが正常に実行されると、指定した出力場所(指定した公開形式で利用できる場所)で、ラングリングされた出力を収集できます。

高速のターゲット設定

インポートまたは作成したデータセットを使用してターゲット スキーマを定義し、既存のレシピに割り当てることで、ラングリングの作業を体系化してスピードアップします。ターゲットは Transformer ページに表示され、ラングリングする必要のあるデータセット全体か、データセットの選択した列に対して適用できます。

一般的なデータ型

CSV、JSON、リレーショナル テーブル形式で保存された構造化データセットまたは非構造化データセットを、メガバイトからペタバイトまでサイズを問わず、同じように簡単に変換できます。

Google Cloud Platform に統合

Cloud Storage または BigQuery に保存されたデータ、あるいはパソコンのデータを処理できます。その後、調整したデータを保存、分析、可視化、または機械学習に使用する目的で、BigQuery または Cloud Storage にエクスポートできます。Cloud Identity and Access Management によって、ユーザー アクセスとデータ セキュリティがシームレスに管理されます。

Cloud Dataprep のアーキテクチャ

Cloud Dataprep のアーキテクチャ

Cloud Dataprep は、新しいデータセットの迅速な探索を可能にしました。また、柔軟性に優れているため、データ変換に関するあらゆるニーズに対応できます。今や、当社のデータ準備作業は数時間や数日ではなく、数分で完了するようになり、データ準備にかかっていた時間が 90% も短縮されました。

Merkle 社 IT アーキテクト Henry Culver 氏

導入事例

リソース

料金

Cloud Dataprep は、サンプルデータを操作してデータ準備のルールを定義できる、インタラクティブなウェブ アプリケーションです。このアプリケーションをサンプルデータの探索、変換ステップの定義、変換されたサンプルのエクスポートに使用する場合、料金は発生しません。データセット全体に対してフローを実行する場合は、フローを Cloud Dataprep ジョブとして実行することもできます(Google Cloud Dataflow を使用)。もっと詳細な情報を確認するには、料金ガイドをご覧ください。

次のステップに進む

Google Cloud をご利用のお客様には、12 か月間有効の無料クレジット $300 分を差し上げます。

無料トライアル
開始にあたりサポートが必要な場合
信頼できるパートナーの活用