データ統合とは

ビッグデータ、モノのインターネット（IoT）、Software as a Service（SaaS）、クラウドアクティビティなどにより、データソースの数は爆発的に増加し、世界に存在するデータの量も膨大になっています。これまでは、これらのデータのほとんどは、スタンドアロンのサイロや個別のデータストアに収集、保存されてきました。データ統合は、複数のソースからデータを検出、移動、結合して分析情報を引き出し、ML と高度な分析を強化するプロセスです。

ビジネスがデジタル変革戦略をしていく上で、オペレーションを改善し、顧客満足度を高め、ますますデジタル化する世界で競争するためには、すべてのデータを把握する必要があるため、データ統合は特に重要です。

Google Cloud のデータ統合ソリューションは、疎結合でありながら緊密に統合されたサービススイートであり、次のものが含まれます。

Cloud Data Fusion は、ETL および ELT データパイプラインを効率的に構築して管理できる、フルマネージドかつクラウドネイティブなデータ統合サービスです。
Cloud Composer は、Apache Airflow をベースに構築されたフルマネージドのワークフローオーケストレーションサービスで、エンドツーエンドのデータとプロセスのライフサイクルの管理、オーケストレーションを行えます。
Datastream は、サーバーレスで使いやすい変更データキャプチャおよびレプリケーションサービスです。
Dataplex は、分散データを大規模に検出、管理、モニタリング、統制するためのインテリジェントなデータファブリックです。
Dataflow は、フルマネージドのストリーミング分析サービスで、レイテンシ、処理時間、コストを最小限に抑えます。
Pub/Sub は、ストリーミング分析とデータ統合パイプラインに使用される、非同期でスケーラブルなメッセージングサービスです。
Dataproc は、バッチ処理、クエリ実行、ストリーミング、ML に対応するフルマネージドの Spark および Hadoop サービスです。

お問い合わせ

代替データ統合ソリューションと比較した Cloud Data Fusion の経済的メリット

レポートを取得

データ統合の定義

データ統合は、異なるソースのデータを統合して、統一されたより価値の高い情報を得ることで、ビジネスが迅速かつ適切な判断を下せるようにするためのプロセスです。

データ統合は、構造化、非構造化、バッチ、ストリーミングなど、あらゆる種類のデータを統合し、在庫データベースの基本的なクエリから複雑な予測分析まで、あらゆることができます。

データ統合の課題

データ統合プラットフォームを使用する難しさ

経験豊富なデータプロフェッショナルを見つけるのは困難で、費用もかかりますが、ほとんどのデータ統合プラットフォームのデプロイにおいて必要となるのが一般的です。ビジネス上の意思決定を行うためにデータへのアクセスを必要とするビジネスアナリストは、多くの場合、これらの専門家に依存しています。企業のソースからのデータを統合するのに通常 6 か月かかるため、データ分析の価値創出に時間がかかります。

大規模なデータマネジメントは困難

組織は、分析のために高品質のデータを簡単に見つけてアクセスできるようにすることに苦労しています。データソースとデータサイロが拡大するにつれ、組織は、高度な分析を可能にするか、データを分散したままでアジリティを制限するために、サイロ間でデータを移動および複製するかのトレードオフを余儀なくされます。

複数の配信スタイルによるデータの統合

バッチ、ストリーミング、イベントなど、単一プラットフォームでの複数の配信スタイルに対するお客様からのニーズが高まっています。ビジネスのより多くの側面がデジタルトレースを作成するようになるにつれ、組織は、ビジネスの成果を向上させるために、リアルタイムのデータ統合と分析を活用しようとしています。

データのセマンティックに関する問題

同じことを意味するデータであっても、編成やフォーマットによって複数のバージョンが生まれる場合があります。たとえば、日付は、dd/mm/yy として数値的に格納したり、月、日、年として格納したりできます。ETL やマスターデータ管理ツールの「変換」の要素がこの課題に対処しています。

データ統合インフラにおける高い CAPEX と OPEX

エンタープライズ向けのデータ統合イニシアチブに必要なインフラストラクチャの調達、デプロイ、維持、管理を行う際には、CAPEX と OPEX の両方がかさみます。マネージドサービスとしてのクラウドベースのデータ統合は、このコスト問題に直接対処しています。

アプリケーションと密接に組み合わされたデータ

これまでは、データが特定のアプリケーションに縛られていたり、依存していたりしたため、ビジネスの他の場所でデータを取得、使用することができませんでした。現在は、アプリケーションとデータレイヤーが分離され、データをより柔軟に使用できるようになっています。

Google Cloud でビジネスの課題を解決する

新規のお客様には、Google Cloud で使用できる無料クレジット $300 分を差し上げます。

使ってみる

お客様独自の課題については、Google Cloud のセールススペシャリストまで詳しくご相談ください。

お問い合わせ

データ統合ツールとは

データ統合プラットフォームには、通常、次のツールの多くが含まれています。

データ取り込みツール: これらのツールを使用すると、データを取得、インポートして、すぐに使用したり、後で使用するために保存したりできます
ETL ツール: ETL は extract（抽出）、transform（変換）、load（読み込み）の略で、最も一般的なデータ統合手法です
データカタログ: これらは、企業が複数のデータサイロに散在するデータアセットを検索し、在庫を作成するのに役立ちます
データガバナンスツール: データの可用性、セキュリティ、ユーザビリティ、整合性を確保するツール
データクレンジングツール: 雑然としたデータを置き換え、修正、削除してクリーンアップするツール
データ移行ツール: これらのツールは、コンピュータ、ストレージシステム、アプリケーションフォーマット間でデータを移行します
マスターデータ管理ツール: 企業が共通のデータ定義を遵守し、単一の信頼できる情報源を実現できるツール
データコネクタ: これらのツールは、データをデータベースから別のデータベースに移行させます。変換の実行もできます

データ統合の目的

データ統合は、一般的に以下のことを行うために使用されます。

AI と ML

データインテグレーションは、ML モデルを強化するために必要な高品質な組み合わせデータを提供することによる、AI と ML の基盤として機能します。

データウェアハウジング

データ統合は、さまざまなソースのデータをデータウェアハウスに統合し、ビジネス目的の分析をします。

データレイクの開発

データ統合により、サイロ化されたオンプレミスプラットフォームからデータレイクにデータを移動し、データに対して高度な分析と AI を実行して簡単に価値を引き出すことができます。

クラウドへの移行とデータベースのレプリケーション

データ統合は、クラウドへの移行をスムーズに行うための中心的な要素です。Data Transfer Service、データコネクタ、CDC ツール、ETL ツールはすべて、組織がビジネスの継続性を維持しながらクラウドに移行するためのさまざまなオプションを提供します。

IoT

データ統合は、複数の IoT ソースから 1 か所にデータを収集し、そこから価値を得るのに役立ちます。

リアルタイムインテリジェンス

ストリーミングやイベント取り込みなどのデータ統合機能により、リアルタイムの予測やレコメンデーションなどのユースケースが活性化されます。

データ統合とは