Google Data Cloud Summit をオンデマンドで視聴して、分析、AI、ビジネス インテリジェンス、データベースにおける最新のイノベーションについてご覧ください。

Dataprep by Trifacta

分析と ML に使用するデータを視覚的に探索、クリーンアップ、準備できるインテリジェントなクラウド データサービス。

このプロダクトのドキュメントを見る

開いたままのノートパソコン、その手前に Dataprep アイコン、右側に複数のウェブページ、左側に Trifacta ロゴ付きのスプレッドシート、後ろには雲の中の棒グラフが表示されている

インテリジェントなデータ準備

Dataprep by Trifacta は、分析、レポート、ML に使用する構造化データと非構造化データを視覚的に探索、クリーンアップ、準備できるインテリジェント データサービスです。Dataprep はサーバーレスで、規模に関係なく稼働します。デプロイや管理が必要なインフラストラクチャはありません。また、理想的なデータ変換操作が UI 入力のたびに提案、予測されるため、コードを書く必要がありません。

最新情報

画面にデータが表示されたパソコン モニター

サーバーレスのシンプルさ

Dataprep は、Trifacta が運営する統合パートナー サービスであり、業界トップクラスのデータ準備ソリューションをベースにしています。Google は Trifacta との緊密な連携によってシームレスなユーザー エクスペリエンスを実現しています。そのため、事前のソフトウェア インストールと追加のライセンス費用は不要で、継続的な運用オーバーヘッドも発生しません。Dataprep はフルマネージドで、データ準備ニーズに応じてオンデマンドでスケーリングされるので、ユーザーは分析に専念できます。

ストップウォッチ アイコンを伴う図案化されたグラフ

迅速なデータ探索と異常の検出

視覚的なデータ分布により、データを瞬時に把握し、探索できます。Dataprep はスキーマ、データ型、可能な結合、異常(欠損値、外れ値、重複値など)を自動的に検出するので、時間のかかるデータ品質評価作業を省略して、すぐにデータの探索と分析に着手できます。

テキストと右余白に青色のチェックマークがあるページが、開いた段ボール箱からはみ出し、その左に Dataprep のアイコンがある。

簡単かつパワフルなデータ準備

Dataprep は、UI で操作を行うたびに次の最適なデータ変換操作を自動で提案、予測します。変換のシーケンスを定義しておけば、Dataprep は内部的に Dataflow または BigQuery を使用し、あらゆるサイズの構造化データセットまたは非構造化データセットをわずか数回のクリックで処理できるようにします。そのため、コードを記述する必要がなくなります。

Dataprep の特長

Starter エディション、Professional エディション、Enterprise エディション

予測変換

Dataprep は独自の推論アルゴリズムを使用し、ユーザーのデータ選択からデータ変換の意図を推定します。これにより、ランク付けされた候補セットと、選択されたデータに一致するパターンが自動的に生成されます。

充実した変換

何百もの変換関数を利用して、データを必要なアセットに変換します。マウスを 1 回クリックするだけで、集約、ピボット、アンピボット、結合、ユニオン、抽出、計算、比較、条件、マージ、正規表現などを適用できます。

最適化された処理スループット

Dataprep により、基盤となる最適な Google Cloud 処理エンジンが自動的に選択され、可能な限りの速さでデータが変換されます。Dataprep は、データ局所性とデータ量に基づき、BigQuery(インプレース ELT 変換)、Dataflow、または Dataprep のインメモリ エンジン(データ量が少ない場合)を使いデータの準備を行います。

アクティブ プロファイリング

インタラクティブな視覚的分布の形でデータを表示して探索することで、検出、クレンジング、変換を容易にします。データを視覚的に示すことによって、大量のデータも解釈しやすくなります。また、Dataprep の革新的なプロファイリング技術により、重要な統計情報が動的かつ使いやすい形式で可視化されます。

データ品質ルール

データ品質ルールは、データの精度、完全性、整合性、有効性、一意性をモニタリングし、改善するためのデータ品質インジケーターを提案します。これにより、データがどのくらいクリーンであるかについて全体像を把握できます。

コラボレーション

チームの共同作業では、複数のユーザーが同じアセットで作業したり、質の高いアセットのコピーを作成して他のユーザーがテンプレートとして使用できると効率的です。Dataprep を使用すると、複数のユーザーが同じフロー オブジェクトでリアルタイムに共同で作業できます。また、個別に作業するためのコピーを他のユーザーのために作成することもできます。

包括的な接続性

BigQuery、Cloud Storage、Microsoft Excel、Google スプレッドシートの標準接続に加えて、Salesforce、Oracle、Microsoft SQL Server、MySQL、PostgreSQL などの数百のデータソースを使用してセルフサービス分析を強化できます。

データ パイプラインのオーケストレーション

連続的で条件に基づく順番で連鎖させて、データ準備ジョブをスケジュールして自動化します。処理の成功または失敗がユーザーに通知され、外部タスク(Cloud Functions など)がトリガーされます。包括的な API を使用することで、企業のエンドツーエンド ソリューションの一環として Dataprep を統合します。

エンタープライズ規模の運用化

エディションとバージョンにわたるレシピのインポート / エクスポート、フロー パラメータ、Dataflow または BigQuery のカスタム構成、パフォーマンス チューニング、およびソフトウェア開発ライフサイクルとモニタリングを自動化する高度な API により、継続的デプロイ プラクティスを採用します。

一般的なデータ型

任意のサイズ(MB からペタバイトまで)の CSV、JSON、リレーショナル テーブル形式、または SaaS アプリケーション データに格納された構造化データセットまたは非構造化データセットを同じように簡単かつシンプルに変換できます。

パターン マッチング

列パターン マッチングを使用すると、関心のあるデータパターンを特定し、それらをインターフェースに表示してレシピの作成に使用できます。さらに、レシピステップでは、正規表現や Dataprep パターンを適用して、パターンの特定や、データセット内の一致するデータの変換ができます。

標準化

スペルや言語に依存しない発音に基づく類似性で値をグループ化し、一貫性のある値の標準化されたクラスタを作成します。

サンプリング

Dataprep は、パフォーマンスを最適化するために、クライアント アプリケーションでの表示と操作に使用するデータサンプルを 1 つ以上自動で生成します。ただし、こうしたサンプルのサイズ、範囲、作成方法は簡単に変更できます。

高度なセキュリティ

Google IAM のロールと、BigQuery、Cloud Storage、Google スプレッドシートのアクセスを決定するアクセス権を組み合わせて使用し、個々のデータアクセスを制御することで、現在のセキュリティ基準を拡張します。

Dataprep ELT パイプライン アーキテクチャ

左側の「取り込み」列に、BigQuery、Cloud Storage、Google スプレッドシート、Microsoft Excel、データベース、アプリケーション、ファイル アップロードの元データがある。フローが右の「準備と保存」列を通じて Cloud Dataprep と Dataflow に進み、BigQuery と Cloud Storage でのデータの調整を示す。この列の下には「ガバナンスと自動化(Data Catalog、Cloud Functions、Cloud Composer)」と表示。フローはさらに右の「分析と ML」列に続き、そこでは BigQuery / BigQueryML、Looker、Google データポータル、パートナー BI サービス(ここには Qlik ロゴ)、Cloud AI Platform と表示。
Merkle のロゴ

「Dataprep を使用することで、新しいデータセットを素早く探索できるようになりました。また、柔軟性に優れ、データ変換に関するあらゆるニーズに対応できます。今や、当社のデータ準備作業は数時間や数日ではなく、数分で完了するようになり、データ準備にかかっていた時間が 90% も短縮されました。

Merkle 社、IT アーキテクト Henry Culver 氏

事例を読む

導入事例

料金

Google Cloud Marketplace の料金ページをご覧ください。

次のステップ

$300 分の無料クレジットと 20 種類以上の無料枠プロダクトを活用して Google Cloud で構築を開始しましょう。

開始にあたりサポートが必要な場合
信頼できるパートナーと連携する

次のステップ

プロジェクトを開始してインタラクティブなチュートリアルを体験し、アカウントを管理しましょう。

開始にあたりサポートが必要な場合
信頼できるパートナーと連携する
ヒントとベスト プラクティスを入手する