インテリジェントなデータ準備
Cloud Dataprep by Trifacta は、分析、レポート、機械学習に使用する構造化データと非構造化データを視覚的に探索、クリーニング、準備できるインテリジェント データ サービスです。Dataprep はサーバーレスで、規模に関係なく稼働します。デプロイや管理が必要なインフラストラクチャはありません。また、理想的なデータ変換操作が UI 入力のたびに提案、予測されるため、コードを書く必要がありません。
最新情報


サーバーレスのシンプルさ
Dataprep は、Google パートナーの Trifacta が運営する統合パートナー サービスであり、業界トップクラスのデータ準備ソリューションをベースにしています。Google は Trifacta との緊密な連携によってシームレスなユーザー エクスペリエンスを実現しています。そのため、事前のソフトウェア インストールと追加のライセンス費用は不要で、継続的な運用オーバーヘッドも発生しません。Dataprep はフルマネージドで、お客様のデータ準備ニーズに応じてオンデマンドでスケーリングされるので、お客様は分析に専念できます。
迅速なデータ探索と異常の検出
視覚的なデータ分布により、データを瞬時に把握し、探索できます。Dataprep はスキーマ、データ型、可能な結合、異常(欠損値、外れ値、重複値など)を自動的に検出するので、時間のかかるデータ品質評価作業を省略して、すぐにデータの探索と分析に着手できます。
簡単かつパワフルなデータ準備
Dataprep は、最適なデータ変換操作を UI で操作を行うたびに自動で提案、予測します。変換のシーケンスを定義しておけば、Dataprep は内部的に Dataflow または BigQuery を使用し、あらゆるサイズの構造化データセットまたは非構造化データセットをわずか数回のクリックで処理できるようにします。そのため、コードを記述する必要がなくなります。
Dataprep の機能
Starter エディション、Professional エディション、Enterprise エディション
予測変換
Dataprep は独自の推定アルゴリズムを使用し、ユーザーのデータ選択からデータ変換の意図を推定します。これにより、ランク付けされた候補セットと、選択されたデータに一致するパターンが自動的に生成されます。
充実した変換
何百もの変換関数を利用して、データを必要なアセットに変換します。マウスを 1 回クリックするだけで、集約、ピボット、アンピボット、結合、ユニオン、抽出、計算、比較、条件、マージ、正規表現などを適用できます。
最適化された処理スループット
Dataprep は、データをできるだけ速く変換するために、基盤となる Google Cloud 処理エンジンを自動的に選択します。Dataprep は、データの局所性とボリュームに基づき、BigQuery(インプレース ELT 変換)を活用してデータ、Dataflow、または小型のボリュームの Dataprep エンジンを準備します。
アクティブ プロファイリング
インタラクティブな視覚的分布の形でデータを表示して探索することで、検出、クレンジング、変換を容易にします。データを視覚的に示すことによって、大量のデータも解釈しやすくなります。また、Dataprep の革新的なプロファイリング技術により、重要な統計情報が動的かつ使いやすい形式で可視化されます。
データ品質ルール
データ品質ルールは、データの精度、完全性、整合性、有効性、一意性をモニタリングし、改善するためのデータ品質インジケーターを提案します。これにより、データのクリーンさについて全体像を把握できます。
共同作業
チームの共同作業では、複数のユーザーが同じアセットで作業したり、質の高いアセットのコピーを作成して他のユーザーがテンプレートとして使用したりできると効率的です。Dataprep を使用すると、ユーザーは同じフロー オブジェクトでリアルタイムに共同作業できます。また、他のユーザーが別の作業に使用するためのコピーを作成することもできます。
包括的な接続
BigQuery、Cloud Storage、Microsoft Excel、Google スプレッドシートの標準接続に加えて、Salesforce、Oracle、Microsoft SQL Server、MySQL、PostgreSQL などの数百のデータソースを使用してセルフサービス分析を強化できます。
データ パイプラインのオーケストレーション
連続的で条件に基づく順番で連鎖させて、データ準備ジョブをスケジュールして自動化します。処理の成功または失敗がユーザーに通知され、外部タスク(Cloud Functions など)がトリガーされます。包括的な API を使用することで、企業のエンドツーエンド ソリューションの一環として Dataprep を統合できます。
エンタープライズ規模の運用化
エディションとバージョンにわたるレシピのインポート/エクスポート、フロー パラメータ、Dataflow または BigQuery パフォーマンス チューニングのカスタム構成、およびソフトウェア開発ライフサイクルとモニタリングを自動化する高度な API により、継続的デプロイ プラクティスを採用します。
一般的なデータ型
任意のサイズ(メガバイトからペタバイトまで)のCSV、JSON、リレーショナル テーブル形式、または SaaS アプリケーション データに格納された構造化データセットまたは非構造化データセットを同じように簡単に準備できます。
パターン マッチング
列パターン マッチングを使用すると、関心のあるデータパターンを特定し、それらをインターフェースに表示してレシピの作成に使用できます。さらに、レシピステップでは、正規表現や Dataprep パターンを適用して、パターンを検索したり、データセット内の一致するデータを変換したりできます。
標準化
スペルや言語に依存しない発音に基づく類似性で値をグループ化し、一貫性のある値の標準化されたクラスタを作成します。
サンプリング
Dataprep は、パフォーマンスを最適化するために、クライアント アプリケーションでの表示と操作に使用するデータサンプルを 1 つ以上生成します。ただし、こうしたサンプルのサイズ、範囲、作成方法は簡単に変更できます。
高度なセキュリティ機能
Google IAM のロールと、BigQuery、Cloud Storage、Google スプレッドシートのアクセスを決定するアクセス権を組み合わせて使用し、個々のデータアクセスを制御することで、現在のセキュリティ基準を拡張します。
Dataprep ELT パイプライン アーキテクチャ
導入事例
リソース
料金
Dataprep は、サンプルデータを操作してデータ準備のルールを定義できる、インタラクティブなウェブ アプリケーションです。データセット全体に対してフローを実行する場合は、フローを Dataprep ジョブとして実行することもできます(Dataflow を使用)。料金は設計と実行の 2 つの変数に分けられます。設計はプロジェクト単位で料金が計算され、ユーザー数に上限はありません。実行料金は、Dataprep でジョブを実行する Dataflow の使用量で構成されます。詳しくは、Google Cloud Marketplace の料金ページをご覧ください。
$300 分の無料クレジットと 20 種類以上の Always Free プロダクトを活用して Google Cloud で構築を開始しましょう。