Cloud Dataprep by Trifacta

分析や機械学習に使用するデータを視覚的に探索、クリーニング、準備するためのインテリジェント クラウド データ サービス

インテリジェントなデータ準備

インテリジェントなデータ準備

Cloud Dataprep by Trifacta は、分析、レポート、機械学習に使用する構造化データと非構造化データを視覚的に探索、クリーニング、準備できるインテリジェント データ サービスです。Cloud Dataprep はサーバーレスで、どんな規模でも稼働します。インフラストラクチャのデプロイや管理は必要ありません。最適なデータ変換操作が UI 入力のたびに提案、予測されるため、コードを記述する必要がありません。また、スキーマ、データ型、可能な結合、異常が自動的に検出されるので、データのプロファイリング作業に時間を費やすことなく、データ分析に専念できます。

サーバーレスのシンプルさ

サーバーレスのシンプルさ

Cloud Dataprep は、Google パートナーの Trifacta が運営する統合サービスで、業界トップクラスのデータ準備ソリューション、Trifacta Wrangler を基盤としています。Google と Trifacta の密接な連携によってシームレスなユーザー エクスペリエンスが実現し、事前のソフトウェア インストール、追加のライセンス費用、継続的な運用上のオーバーヘッドが不要となります。Cloud Dataprep はフルマネージドで、お客様のデータ準備ニーズに応じてオンデマンドでスケールされるので、お客様は分析に専念できます。

迅速なデータ探索と異常の検出

迅速なデータ探索と異常の検出

視覚的なデータ分布により、データを瞬時に把握し、探索できます。Cloud Dataprep はスキーマ、データ型、可能な結合、異常(欠損値、外れ値、重複など)を自動的に検出するので、データのプロファイリング作業に時間を費やすことなく、すぐにデータの探索と分析にとりかかることができます。

簡単かつパワフルなデータ準備

簡単かつパワフルなデータ準備

Cloud Dataprep は、最適なデータ変換操作を UI で操作を行うたびに自動で提案、予測します。変換のシーケンスを定義しておけば、Cloud Dataprep が内部で Cloud Dataflow を使用し、あらゆるサイズの構造化データセットまたは非構造化データセットをわずか数回のクリックで処理できるようにします。そのため、コードを記述する必要がありません。

Cloud Dataprep 導入事例

Cloud Dataprep を使用することで、新しいデータセットを素早く探索できるようになりました。また、柔軟性に優れているため、データ変換に関するあらゆるニーズに対応できます。今や、当社のデータ準備作業は数時間や数日ではなく、数分で完了するようになり、データ準備にかかっていた時間が 90% も短縮されました。

Merkle 社 IT アーキテクト Henry Culver 氏

Cloud Dataprep のアーキテクチャ

Cloud Dataprep のアーキテクチャ

Cloud Dataprep の特長

予測変換

Cloud Dataprep は独自の推定アルゴリズムを使用し、ユーザーのデータ選択によりデータ変換の意図を解釈します。ランク付けした一連の候補と選択されたデータに一致するパターンを自動的に生成します。

パラメータ化

更新ごとに変更されるファイルパスの一部を変数としてパラメータ化することで、同一データセットの複数インスタンスに対して同じレシピを実行できます。この変数は、ジョブ実行時に必要に応じて変更できます。

共同作業

チームの共同作業では、複数のユーザーが同じアセットで作業できたり、良質な作業のコピーを作成して他のユーザーがテンプレートとして使用したりできると効率的です。Cloud Dataprep を使用すると、ユーザーが同じフロー オブジェクトでリアルタイムに共同作業できます。また、他のユーザーが別の作業に使用するためのコピーを作成することもできます。

パターン マッチング

列パターン マッチングを使用すると、関心のあるデータパターンを特定し、それらをインターフェースに表示してレシピの作成に使用できます。さらに、レシピのステップでは、正規表現や Cloud Dataprep パターンを適用してパターンを検索し、データセット内の一致するデータを変換できます。

視覚的なプロファイリング

対話形式の視覚的なデータ分布を使用してデータを確認、探索することで、検出、クレンジング、変換に役立ちます。データを視覚的に示すことによって、大量のデータも解釈しやすくなります。また、Cloud Dataprep の革新的なプロファイリング技術により、重要な統計情報が動的かつ使いやすい形式で可視化されます。

サンプリング

Cloud Dataprep はパフォーマンスを最適化するために、クライアント アプリケーションでの表示と操作に使用するデータサンプルを 1 つ以上生成しますが、これらのサンプルのサイズ、範囲、作成方法は簡単に変更できます。

スケジュール

フロー内のレシピを繰り返し実行するか、必要に応じて実行するかをスケジュール設定できます。スケジュール設定されたジョブが正常に実行されると、指定した出力場所(指定した公開形式で利用できる場所)で、ラングリングされた出力を収集できます。

ターゲット マッチング

インポートまたは作成したデータセットを使用してターゲット スキーマを定義し、既存のレシピに割り当てることで、ラングリングの作業を体系化してスピードアップします。ターゲットは Transformer ページに表示され、ラングリングする必要のあるデータセット全体か、データセットの選択した列に対して適用できます。

一般的なデータ型

CSV、JSON、リレーショナル テーブル形式で保存された構造化データセットまたは非構造化データセットを、メガバイトからペタバイトまでサイズを問わず、同じように簡単に変換できます。

Google Cloud Platform に統合

Cloud Storage や BigQuery に保存されたデータ、あるいはデスクトップのデータを処理できます。その後、調整したデータを保存、分析、可視化、機械学習のために BigQuery や Cloud Storage にエクスポートできます。Cloud Identity and Access Management によって、ユーザー アクセスとデータ セキュリティがシームレスに管理されます。

Cloud Dataprep の料金

Cloud Dataprep は、サンプルデータを操作してデータ準備のルールを定義できるインタラクティブなウェブ アプリケーションです。このアプリケーションは、サンプルデータの探索、変換ステップの定義、変換されたサンプルのエクスポートに使用でき、料金はかかりません。データセット全体に対するフローの実行については、Cloud Dataprep ジョブ(Google Cloud Dataflow を使用)として実行することもできます。詳しくは、料金ガイドをご覧ください。

リソース

Google Cloud

使ってみる

無料で体験

GCP を初めてご利用の場合、あらゆる GCP プロダクトを $300 相当の無料クレジットでお試しいただけます。

さらにサポートが必要な場合

Google のエキスパートが、適切なソリューションの構築や、お客様のニーズに合ったパートナーを見つけるお手伝いをいたします。

フィードバックを送信...

Cloud Dataprep by Trifacta