データ統合とは

ビッグデータ、モノのインターネット(IoT)、Software as a Service(SaaS)、クラウド アクティビティなどにより、データソースの数は爆発的に増加し、世界に存在するデータの量も膨大になっています。しかし、これらのデータのほとんどは、スタンドアロンのサイロや個別のデータストアに収集、保存されてきました。データ統合は、より高いデータの価値やインサイトを得るために、これらの個別のデータ コレクションを統合するプロセスです。

ビジネスがデジタル変革戦略をしていく上で、オペレーションを改善し、顧客満足度を高め、ますますデジタル化する世界で競争するためには、すべてのデータを把握する必要があるため、データ統合は特に重要です。

Google Cloud のデータ統合ソリューションである Cloud Data Fusion は、ETL / ELT データ パイプラインを効率的に構築して管理できる、フルマネージドでクラウドネイティブなデータ統合サービスです。

データ統合の定義

データ統合は、異なるソースのデータを統合して、統一されたより価値の高い情報を得ることで、ビジネスが迅速かつ適切な判断を下せるようにするためのプロセスです。  

データ統合は、構造化、非構造化、バッチ、ストリーミングなど、あらゆる種類のデータを統合し、在庫データベースの基本的なクエリから複雑な予測分析まで、あらゆることができます。

データ統合の課題

データ統合プラットフォームを使用する難しさ

経験豊富なデータ プロフェッショナルを見つけるのは困難で、費用もかかりますが、ほとんどのデータ統合プラットフォームのデプロイにおいて必要となるのが一般的です。ビジネス上の意思決定を行うためにデータへのアクセスが必要なビジネス アナリストは、多くの場合こうしたエキスパートに依存しており、データ分析の価値創出に遅れが生じてしまいます。

データ統合インフラにおける高い CAPEX と OPEX

エンタープライズ向けのデータ統合イニシアチブに必要なインフラストラクチャの調達、デプロイ、維持、管理を行う際には、CAPEX と OPEX の両方がかさみます。マネージド サービスとしてのクラウドベースのデータ統合は、このコスト問題に直接対処しています。

アプリケーションと密接に組み合わされたデータ

これまでは、データが特定のアプリケーションに縛られていたり、依存していたりしたため、ビジネスの他の場所でデータを取得、使用することができませんでした。現在は、アプリケーションとデータレイヤーが分離され、データをより柔軟に使用できるようになっています。

データのセマンティックに関する問題

同じことを意味するデータであっても、編成やフォーマットによって複数のバージョンが生まれる場合があります。たとえば、日付は、dd/mm/yy として数値的に格納したり、月、日、年として格納したりできます。ETL やマスターデータ管理ツールの「変換」の要素がこの課題に対処しています。

データ統合ツールとは

データ統合プラットフォームには、通常次のツールの多くが含まれています。

  • データ取り込みツール: これらのツールを使用すると、データを取得、インポートして、すぐに使用したり、後で使用するために保存したりできます
  • ETL ツール: ETL は extract(抽出)、transform(変換)、load(読み込み)の略で、最も一般的なデータ統合手法です
  • データカタログ: これらは、企業が複数のデータサイロに散在するデータアセットを検索し、在庫を作成するのに役立ちます
  • データ ガバナンス ツール: データの可用性、セキュリティ、ユーザビリティ、整合性を確保するツール
  • データ クレンジング ツール: 雑然としたデータを置き換え、修正、削除してクリーンアップするツール
  • データ移行ツール: これらのツールは、コンピュータ、ストレージ システム、アプリケーション フォーマット間でデータを移行します
  • マスターデータ管理ツール: 企業が共通のデータ定義を遵守し、単一の信頼できる情報源を実現できるツール
  • データコネクタ: これらのツールは、データをデータベースから別のデータベースに移行させます。変換の実行もできます

データ統合の目的

データ統合は、一般的に以下のことを行うために使用されます。

データレイクの開発

データ統合は、データ値を高めるために、サイロ化されたオンプレミスのプラットフォームからデータレイクにデータを移動させます。

データ ウェアハウジング

データ統合は、さまざまなソースのデータをデータ ウェアハウスに統合し、ビジネス目的の分析をします。 

マーケティング

データ統合により、お客様のユーザー属性、ソーシャル ネットワーク、ウェブ解析データなど、すべてのマーケティング データを分析と操作のために 1 か所に移動させます。

IoT

データ統合は、複数の IoT ソースから 1 か所にデータを収集し、そこから価値を得るのに役立ちます。

データベース レプリケーション

データ統合は、Oracle、MongoDB、MySQL などのソース データベースからクラウド データ ウェアハウスにデータをレプリケーションするための中心的な役割を果たします。

データ統合ツールは従来、データレイクやデータ ウェアハウスのような価値のあるデータ プロダクトを作成するために、データ マイニング、マージ、クレンジング、分析に精通した技術チームを必要としてきましたが、Google は、このデータ統合の最大の障壁の一つを取り除きました。

コードを意識せずに ETL / ELT データ パイプラインを開発できる Cloud Data Fusion は、マネージドかつクラウドネイティブなデータの取り込みおよび統合サービスで、ほとんどあるいはまったくコードについての知識がなくても、チームに経験豊富なデータエンジニアの能力をもたらすことができます。