Data Cloud Summit のデータベース、分析、AI に関する最新のイノベーションをご確認ください。ライブとオンデマンドは 5 月 26 日よりスタートします。

Dataprep by Trifacta

分析と機械学習に使用するデータを視覚的に探索、クリーニング、準備できるインテリジェントなクラウド データサービス。

このプロダクトのドキュメントを見る

開いたままのノートパソコン、その手前に Dataprep アイコン、右側に複数のウェブページ、左側に Trifacta ロゴ付きのスプレッドシート、後ろには雲の中の棒グラフが表示されている

インテリジェントなデータ準備

Cloud Dataprep by Trifacta は、分析、レポート、機械学習に使用する構造化データと非構造化データを視覚的に探索、クリーニング、準備できるインテリジェント データ サービスです。Dataprep はサーバーレスで、規模に関係なく稼働します。デプロイや管理が必要なインフラストラクチャはありません。また、理想的なデータ変換操作が UI 入力のたびに提案、予測されるため、コードを書く必要がありません。

最新情報

画面にデータが表示されたパソコン モニター

サーバーレスのシンプルさ

Dataprep は、Google パートナーの Trifacta が運営する統合パートナー サービスであり、業界トップクラスのデータ準備ソリューションをベースにしています。Google は Trifacta との緊密な連携によってシームレスなユーザー エクスペリエンスを実現しています。そのため、事前のソフトウェア インストールと追加のライセンス費用は不要で、継続的な運用オーバーヘッドも発生しません。Dataprep はフルマネージドで、お客様のデータ準備ニーズに応じてオンデマンドでスケーリングされるので、お客様は分析に専念できます。

ストップウォッチ アイコンを伴う図案化されたグラフ

迅速なデータ探索と異常の検出

視覚的なデータ分布により、データを瞬時に把握し、探索できます。Dataprep はスキーマ、データ型、可能な結合、異常(欠損値、外れ値、重複値など)を自動的に検出するので、時間のかかるデータ品質評価作業を省略して、すぐにデータの探索と分析に着手できます。

テキストと右余白にチェックマークがあるページが、開いた段ボール箱からはみ出し、その左に Dataprep のアイコンがある。

簡単かつパワフルなデータ準備

Dataprep は、最適なデータ変換操作を UI で操作を行うたびに自動で提案、予測します。変換のシーケンスを定義しておけば、Dataprep は内部的に Dataflow または BigQuery を使用し、あらゆるサイズの構造化データセットまたは非構造化データセットをわずか数回のクリックで処理できるようにします。そのため、コードを記述する必要がなくなります。

Dataprep の特長

Starter エディション、Professional エディション、Enterprise エディション

予測変換

Dataprep は独自の推定アルゴリズムを使用し、ユーザーのデータ選択からデータ変換の意図を推定します。これにより、ランク付けされた候補セットと、選択されたデータに一致するパターンが自動的に生成されます。

充実した変換

何百もの変換関数を利用して、データを必要なアセットに変換します。マウスを 1 回クリックするだけで、集約、ピボット、アンピボット、結合、ユニオン、抽出、計算、比較、条件、マージ、正規表現などを適用できます。

最適化された処理スループット

Dataprep により、基盤となる最適な Google Cloud 処理エンジンが自動的に選択され、可能な限りの速さでデータが変換されます。Dataprep は、データ局所性とデータ量に基づき、BigQuery(インプレース ELT 変換)を活用して、データ、Dataflow、またはデータ量が少ない場合は、Dataprep のインメモリ エンジンを用意します。

アクティブ プロファイリング

インタラクティブな視覚的分布の形でデータを表示して探索することで、検出、クレンジング、変換を容易にします。データを視覚的に示すことによって、大量のデータも解釈しやすくなります。また、Dataprep の革新的なプロファイリング技術により、重要な統計情報が動的かつ使いやすい形式で可視化されます。

データ品質ルール

データ品質ルールは、データの精度、完全性、整合性、有効性、一意性をモニタリングし、改善するためのデータ品質インジケーターを提案します。これにより、データのクリーンさについて全体像を把握できます。

共同作業

チームの共同作業では、複数のユーザーが同じアセットで作業したり、質の高いアセットのコピーを作成して他のユーザーがテンプレートとして使用したりできると効率的です。Dataprep を使用すると、ユーザーは同じフロー オブジェクトでリアルタイムに共同作業できます。また、他のユーザーが別の作業に使用するためのコピーを作成することもできます。

包括的な接続

BigQuery、Cloud Storage、Microsoft Excel、Google スプレッドシートの標準接続に加えて、Salesforce、Oracle、Microsoft SQL Server、MySQL、PostgreSQL などの数百のデータソースを使用してセルフサービス分析を強化できます。

データ パイプラインのオーケストレーション

連続的で条件に基づく順番で連鎖させて、データ準備ジョブをスケジュールして自動化します。処理の成功または失敗がユーザーに通知され、外部タスク(Cloud Functions など)がトリガーされます。包括的な API を使用することで、企業のエンドツーエンド ソリューションの一環として Dataprep を統合できます。

エンタープライズ規模の運用化

エディションとバージョンにわたるレシピのインポート/エクスポート、フロー パラメータ、Dataflow または BigQuery パフォーマンス チューニングのカスタム構成、およびソフトウェア開発ライフサイクルとモニタリングを自動化する高度な API により、継続的デプロイ プラクティスを採用します。  

一般的なデータ型

任意のサイズ(メガバイトからペタバイトまで)のCSV、JSON、リレーショナル テーブル形式、または SaaS アプリケーション データに格納された構造化データセットまたは非構造化データセットを同じように簡単に準備できます。

パターン マッチング

列パターン マッチングを使用すると、関心のあるデータパターンを特定し、それらをインターフェースに表示してレシピの作成に使用できます。さらに、レシピステップでは、正規表現や Dataprep パターンを適用して、パターンを検索したり、データセット内の一致するデータを変換したりできます。

標準化

スペルや言語に依存しない発音に基づく類似性で値をグループ化し、一貫性のある値の標準化されたクラスタを作成します。

サンプリング

Dataprep は、パフォーマンスを最適化するために、クライアント アプリケーションでの表示と操作に使用するデータサンプルを 1 つ以上生成します。ただし、こうしたサンプルのサイズ、範囲、作成方法は簡単に変更できます。

高度なセキュリティ機能

Google IAM のロールと、BigQuery、Cloud Storage、Google スプレッドシートのアクセスを決定するアクセス権を組み合わせて使用し、個々のデータアクセスを制御することで、現在のセキュリティ基準を拡張します。

Dataprep ELT パイプライン アーキテクチャ

左側の「取り込み」列に、BigQuery、Cloud Storage、Google スプレッドシート、Microsoft Excel、データベース、アプリケーション、ファイル アップロードの元データがある。フローが右の「準備と保存」列を通じて Cloud Dataprep と Dataflow に進み、BigQuery と Cloud Storage でのデータの調整を示す。この列の下には「ガバナンスと自動化(Data Catalog、Cloud Functions、Cloud Composer)」と表示。フローはさらに右の「分析と ML」列に続き、そこでは BigQuery/BigQueryML、Looker、Google データポータル、パートナー BI サービス(ここには Qlik ロゴ)、Cloud AI Platform と表示。

Cloud Dataprep を使用することで、新しいデータセットを素早く探索できるようになりました。また、柔軟性に優れ、データ変換に関するあらゆるニーズに対応できます。今や、当社のデータ準備作業は数時間や数日ではなく、数分で完了するようになり、データ準備にかかっていた時間が 90% も短縮されました。

Merkle 社 IT アーキテクト Henry Culver 氏

導入事例

リソース

料金

Dataprep は、サンプルデータを操作してデータ準備のルールを定義できる、インタラクティブなウェブ アプリケーションです。データセット全体に対してフローを実行する場合は、フローを Dataprep ジョブとして実行することもできます(Dataflow を使用)。料金は設計と実行の 2 つの変数に分けられます。設計はプロジェクト単位で料金が計算され、ユーザー数に上限はありません。実行料金は、Dataprep でジョブを実行する Dataflow の使用量で構成されます。詳しくは、Google Cloud Marketplace の料金ページをご覧ください。

次のステップ

$300 分の無料クレジットと 20 種類以上の Always Free プロダクトを活用して Google Cloud で構築を開始しましょう。

開始にあたりサポートが必要な場合
信頼できるパートナーの活用