データ分析

自動データ品質によって信頼性の高いインサイトを提供

2023年2月21日

Google Cloud Japan Team

※この投稿は米国時間 2023 年 2 月 8 日に、Google Cloud blog に投稿されたものの抄訳です。

このたび、Dataplex の新機能である自動データ品質（AutoDQ）および自動データプロファイリングの公開プレビュー版の提供が始まりました。Dataplex は、分散データの大規模な管理、モニタリング、統制を可能にするインテリジェントなデータファブリックです。AutoDQ は、推奨ルールの自動作成、組み込みのレポート、サーバーレス実行などの機能を備えており、高品質データの作成に役立ちます。データプロファイリングは、データの一般的な統計特性を識別することで、データに関するより詳細なインサイトを提供します。

信頼性および整合性の高いデータは、企業のイノベーションや、ビジネス上の重要な意思決定、カスタマーエクスペリエンスの差別化を促進し、貴重な機会をもたらします。反対に、低品質なデータは、非効率なプロセスや経済的損失につながりかねません。データの量が比較的少なく、データ利用者も限られていた時代は、データ品質の管理はもっと簡単でした。データ利用者たちは難なく協力してルールを定義し、各々の分析でそのルールを用いていたものです。しかし現在では、データの量や種類が増えるとともに、データ利用者や使用方法も多種にわたって増加し、以前のような手動の方法で対処するのは困難になっています。さらに、組織内に複数のデータ品質ソリューションが混在し、データ品質の指標を統一するのが難しいという問題もあります。多くの場合、その結果として組織内に不整合や混乱がもたらされています。

Dataplex の AutoDQ およびデータプロファイリングは、次世代に対応したデータプロファイリングおよびデータ品質ソリューションであり、ルールの自動作成や高品質データの大規模導入を特長としています。プロファイリング機能は、データの検索性や監査可能性の向上にも役立ちます。

自動データ品質およびデータプロファイリング機能には、以下のような利点があります。

インテリジェントな機能、統合されたエクスペリエンス。ルールの推奨事項の提供、直感的なルール作成エクスペリエンス、設定なしで実行可能といった特長があり、すぐに使い方を習得できます。また、レポート機能が組み込まれているので、レポートを社内で標準化できます。
データのさまざまなペルソナに対して、サイロを回避しながら拡張性を提供。データのさまざまなペルソナのニーズに合わせて拡張可能です。データプロデューサーが品質の所有者となって公開を担当する一方で、データ利用者がビジネスニーズに応じてレポートを拡張できます。
大規模な自動化。データに応じて透過的にスケールします。さらに、Dataplex の属性ストアメカニズムを活用した、大規模な定義やモニタリングが可能になります。

これらのプレビュー機能は、データ品質が日常的なデータ検索および分析の一部となる将来に向けた基盤となります。

「お客様の信頼を維持できるような意思決定を行うために、信頼性の高いデータは非常に重要です。Dataplex の次世代のデータ品質とプロファイリングの機能によって、自動化やインテリジェンスを大規模に利用できるようになり、既存プロセスの簡易化、手作業の軽減につながりました。また、組み込みのレポートとアラート機能は、データ品質の標準化に役立っています。」 — Deutsche Bank、CTO / アーキテクチャ担当責任者 / CDO Jyoti Chawla 氏

「当社では、エネルギーのデータを使用して革新的なモデルを構築し、電力の予測や資源の計画、取引に関する推奨事項の作成に役立てています。データのトレーニングおよび予測を検証するために、Dataplex の自動データ品質機能の評価に日々取り組んでいますが、わかりやすく直感的に操作できることや、インテリジェントな推奨事項に満足しています。」 — Casa dos Ventos、分析およびイノベーション担当責任者 João Caldas 氏