Dataprep by Trifacta
インテリジェントなデータ準備
最新情報


サーバーレスのシンプルさ
Dataprep は、Trifacta が運営する統合パートナー サービスであり、業界トップクラスのデータ準備ソリューションをベースにしています。Google は Trifacta との緊密な連携によってシームレスなユーザー エクスペリエンスを実現しています。そのため、事前のソフトウェア インストールと追加のライセンス費用は不要で、継続的な運用オーバーヘッドも発生しません。Cloud Dataprep はフルマネージドで、お客様のデータ準備ニーズに応じてオンデマンドでスケーリングされるので、お客様は分析に専念できます。
迅速なデータ探索と異常の検出
視覚的なデータ分布により、データを瞬時に把握し、探索できます。Dataprep はスキーマ、データ型、可能な結合、異常(欠損値、外れ値、重複値など)を自動的に検出するので、時間のかかるデータ品質評価作業を省略して、すぐにデータの探索と分析に着手できます。
簡単かつパワフルなデータ準備
Dataprep は、次の最適なデータ変換操作を UI で操作を行うたびに自動で提案、予測します。変換のシーケンスを定義しておけば、Dataprep は内部的に Dataflow または BigQuery を使用し、あらゆるサイズの構造化データセットまたは非構造化データセットをわずか数回のクリックで処理できるようにします。そのため、コードを記述する必要がなくなります。
Dataprep の特長
Starter エディション、Professional エディション、Enterprise エディション
予測変換
Dataprep は独自の推定アルゴリズムを使用し、ユーザーのデータ選択からデータ変換の意図を推定します。これにより、ランク付けされた候補セットと、選択されたデータに一致するパターンが自動的に生成されます。
充実した変換
何百もの変換関数を利用して、データを必要なアセットに変換します。マウスを 1 回クリックするだけで、集約、ピボット、アンピボット、結合、ユニオン、抽出、計算、比較、条件、マージ、正規表現などを適用できます。
最適化された処理スループット
Dataprep により、基盤となる最適な Google Cloud 処理エンジンが自動的に選択され、可能な限りの速さでデータが変換されます。Dataprep は、データ局所性とデータ量に基づき、BigQuery(インプレース ELT 変換)を活用して、データ、Dataflow、またはデータ量が少ない場合は、Dataprep のインメモリ エンジンを用意します。
アクティブ プロファイリング
インタラクティブな視覚的分布の形でデータを表示して探索することで、検出、クレンジング、変換を容易にします。データを視覚的に示すことによって、大量のデータも解釈しやすくなります。また、Cloud Dataprep の革新的なプロファイリング技術により、重要な統計情報が動的かつ使いやすい形式で可視化されます。
データ品質ルール
データ品質ルールは、データの精度、完全性、整合性、有効性、一意性をモニタリングし、改善するためのデータ品質インジケーターを提案します。これにより、データのクリーンさについて全体像を把握できます。
共同作業
チームの共同作業では、複数のユーザーが同じアセットで作業したり、質の高いアセットのコピーを作成して他のユーザーがテンプレートとして使用したりできると効率的です。 Dataprep を使用すると、ユーザーは同じフロー オブジェクトでリアルタイムに共同作業できます。また、他のユーザーが別の作業に使用するためのコピーを作成することもできます。
包括的な接続性
BigQuery、Cloud Storage、Microsoft Excel、Google スプレッドシートの標準接続に加えて、Salesforce、Oracle、Microsoft SQL Server、MySQL、PostgreSQL などの数百のデータソースを使用してセルフサービス分析を強化できます。
データ パイプラインのオーケストレーション
連続的で条件に基づく順番で連鎖させて、データ準備ジョブをスケジュールして自動化します。処理の成功または失敗がユーザーに通知され、外部タスク(Cloud Functions など)がトリガーされます。包括的な API を使用することで、企業のエンドツーエンド ソリューションの一環として Dataprep を統合します。
エンタープライズ規模の運用化
エディションとバージョンにわたるレシピのインポート/エクスポート、フロー パラメータ、Dataflow または BigQuery パフォーマンス チューニングのカスタム構成、およびソフトウェア開発ライフサイクルとモニタリングを自動化する高度な API により、継続的デプロイ プラクティスを採用します。
一般的なデータ型
任意のサイズ(メガバイトからペタバイトまで)のCSV、JSON、リレーショナル テーブル形式、または SaaS アプリケーション データに格納された構造化データセットまたは非構造化データセットを同じように簡単かつシンプルに変換できます。
パターン マッチング
列パターン マッチングを使用すると、関心のあるデータパターンを特定し、それらをインターフェースに表示してレシピの作成に使用できます。さらに、レシピステップでは、正規表現や Cloud Dataprep パターンを適用して、パターンを検索したり、データセット内の一致するデータを変換したりできます。
標準化
スペルや言語に依存しない発音に基づく類似性で値をグループ化し、一貫性のある値の標準化されたクラスタを作成します。
サンプリング
Dataprep は、パフォーマンスを最適化するために、クライアント アプリケーションでの表示と操作に使用するデータサンプルを 1 つ以上生成します。ただし、こうしたサンプルのサイズ、範囲、作成方法は簡単に変更できます。
高度なセキュリティ機能
Google IAM のロールと、BigQuery、Cloud Storage、Google スプレッドシートのアクセスを決定するアクセス権を組み合わせて使用し、個々のデータアクセスを制御することで、現在のセキュリティ基準を拡張します。
Dataprep ELT パイプライン アーキテクチャ
「Dataprep を使用することで、新しいデータセットを素早く探索できるようになりました。また、柔軟性に優れ、データ変換に関するあらゆるニーズに対応できます。今や、当社のデータ準備作業は数時間や数日ではなく、数分で完了するようになり、データ準備にかかっていた時間が 90% も短縮されました。
Merkle 社 IT アーキテクト Henry Culver 氏
ストーリーを読む導入事例
リソース
-
Dataprep のクイックスタートの使用を開始する
-
Dataprep プロダクトのお知らせと最新情報
-
Stack Overflow で他の Cloud Dataprep ユーザーと交流する
-
Dataprep by Trifacta のよくある質問Trifacta のセキュリティ、プライバシー、データ保護におけるコンプライアンスの取り組みをご確認ください
-
Cloud Functions を使用してファイルの到着時に Cloud Dataprep のパイプラインを自動実行する
-
Cloud Dataprep の操作のセルフペース ラボ
-
BigQuery ML、Cloud Dataprep、Cloud Composer による ML の自動化
-
マーケティング データ ウェアハウスの構築
-
IoT Core データを Cloud Dataprep にストリーミングする方法
料金
Google Cloud Marketplace の料金ページをご覧ください。
$300 分の無料クレジットと 20 種類以上の Always Free プロダクトを活用して Google Cloud で構築を開始しましょう。
プロジェクトを開始してインタラクティブなチュートリアルを体験し、アカウントを管理しましょう。