データ統合とは

ビッグデータ、モノのインターネット(IoT)、Software as a Service(SaaS)、クラウド アクティビティなどにより、データソースの数は爆発的に増加し、世界に存在するデータの量も膨大になっています。これまでは、これらのデータのほとんどは、スタンドアロンのサイロや個別のデータストアに収集、保存されてきました。データ統合は、複数のソースからデータを検出、移動、結合して分析情報を引き出し、ML と高度な分析を強化するプロセスです。  

ビジネスがデジタル変革戦略をしていく上で、オペレーションを改善し、顧客満足度を高め、ますますデジタル化する世界で競争するためには、すべてのデータを把握する必要があるため、データ統合は特に重要です。

Google Cloud のデータ統合ソリューションは、疎結合でありながら緊密に統合されたサービス スイートであり、次のものが含まれます。

  • Cloud Data Fusion は、ETL および ELT データ パイプラインを効率的に構築して管理できる、フルマネージドかつクラウド ネイティブなデータ統合サービスです。
  • Cloud Composer は、Apache Airflow をベースに構築されたフルマネージドのワークフロー オーケストレーション サービスで、エンドツーエンドのデータとプロセスのライフサイクルの管理、オーケストレーションを行えます。
  • Datastream は、サーバーレスで使いやすい変更データ キャプチャおよびレプリケーション サービスです。
  • Dataplex は、分散データを大規模に検出、管理、モニタリング、統制するためのインテリジェントなデータ ファブリックです。
  • Dataflow は、フルマネージドのストリーミング分析サービスで、レイテンシ、処理時間、コストを最小限に抑えます。
  • Pub/Sub は、ストリーミング分析とデータ統合パイプラインに使用される、非同期でスケーラブルなメッセージング サービスです。
  • Dataproc は、バッチ処理、クエリ実行、ストリーミング、ML に対応するフルマネージドの Spark および Hadoop サービスです。

データ統合の定義

データ統合は、異なるソースのデータを統合して、統一されたより価値の高い情報を得ることで、ビジネスが迅速かつ適切な判断を下せるようにするためのプロセスです。

データ統合は、構造化、非構造化、バッチ、ストリーミングなど、あらゆる種類のデータを統合し、在庫データベースの基本的なクエリから複雑な予測分析まで、あらゆることができます。

データ統合の課題

データ統合プラットフォームを使用する難しさ

経験豊富なデータ プロフェッショナルを見つけるのは困難で、費用もかかりますが、ほとんどのデータ統合プラットフォームのデプロイにおいて必要となるのが一般的です。ビジネス上の意思決定を行うためにデータへのアクセスを必要とするビジネス アナリストは、多くの場合、これらの専門家に依存しています。企業のソースからのデータを統合するのに通常 6 か月かかるため、データ分析の価値創出に時間がかかります。

大規模なデータ マネジメントは困難

組織は、分析のために高品質のデータを簡単に見つけてアクセスできるようにすることに苦労しています。データソースとデータサイロが拡大するにつれ、組織は、高度な分析を可能にするか、データを分散したままでアジリティを制限するために、サイロ間でデータを移動および複製するかのトレードオフを余儀なくされます。

複数の配信スタイルによるデータの統合

バッチ、ストリーミング、イベントなど、単一プラットフォームでの複数の配信スタイルに対するお客様からのニーズが高まっています。ビジネスのより多くの側面がデジタル トレースを作成するようになるにつれ、組織は、ビジネスの成果を向上させるために、リアルタイムのデータ統合と分析を活用しようとしています。

データのセマンティックに関する問題

同じことを意味するデータであっても、編成やフォーマットによって複数のバージョンが生まれる場合があります。たとえば、日付は、dd/mm/yy として数値的に格納したり、月、日、年として格納したりできます。ETL やマスターデータ管理ツールの「変換」の要素がこの課題に対処しています。

データ統合インフラにおける高い CAPEX と OPEX

エンタープライズ向けのデータ統合イニシアチブに必要なインフラストラクチャの調達、デプロイ、維持、管理を行う際には、CAPEX と OPEX の両方がかさみます。マネージド サービスとしてのクラウドベースのデータ統合は、このコスト問題に直接対処しています。

アプリケーションと密接に組み合わされたデータ

これまでは、データが特定のアプリケーションに縛られていたり、依存していたりしたため、ビジネスの他の場所でデータを取得、使用することができませんでした。現在は、アプリケーションとデータレイヤーが分離され、データをより柔軟に使用できるようになっています。

Google Cloud でビジネスの課題を解決する

新規のお客様には、Google Cloud で使用できる無料クレジット $300 分を差し上げます。
お客様独自の課題については、Google Cloud のセールス スペシャリストまで詳しくご相談ください。

データ統合ツールとは

データ統合プラットフォームには、通常、次のツールの多くが含まれています。

  • データ取り込みツール: これらのツールを使用すると、データを取得、インポートして、すぐに使用したり、後で使用するために保存したりできます
  • ETL ツール: ETL は extract(抽出)、transform(変換)、load(読み込み)の略で、最も一般的なデータ統合手法です
  • データカタログ: これらは、企業が複数のデータサイロに散在するデータアセットを検索し、在庫を作成するのに役立ちます
  • データ ガバナンス ツール: データの可用性、セキュリティ、ユーザビリティ、整合性を確保するツール
  • データ クレンジング ツール: 雑然としたデータを置き換え、修正、削除してクリーンアップするツール
  • データ移行ツール: これらのツールは、コンピュータ、ストレージ システム、アプリケーション フォーマット間でデータを移行します
  • マスターデータ管理ツール: 企業が共通のデータ定義を遵守し、単一の信頼できる情報源を実現できるツール
  • データコネクタ: これらのツールは、データをデータベースから別のデータベースに移行させます。変換の実行もできます

データ統合の目的

データ統合は、一般的に以下のことを行うために使用されます。

AI と ML

データ インテグレーションは、ML モデルを強化するために必要な高品質な組み合わせデータを提供することによる、AI と ML の基盤として機能します。

データ ウェアハウジング

データ統合は、さまざまなソースのデータをデータ ウェアハウスに統合し、ビジネス目的の分析をします。

データレイクの開発

データ統合により、サイロ化されたオンプレミス プラットフォームからデータレイクにデータを移動し、データに対して高度な分析と AI を実行して簡単に価値を引き出すことができます。

クラウドへの移行とデータベースのレプリケーション

データ統合は、クラウドへの移行をスムーズに行うための中心的な要素です。Data Transfer Service、データコネクタ、CDC ツール、ETL ツールはすべて、組織がビジネスの継続性を維持しながらクラウドに移行するためのさまざまなオプションを提供します。  

IoT

データ統合は、複数の IoT ソースから 1 か所にデータを収集し、そこから価値を得るのに役立ちます。

リアルタイム インテリジェンス

ストリーミングやイベント取り込みなどのデータ統合機能により、リアルタイムの予測やレコメンデーションなどのユースケースが活性化されます。  

次のステップ

$300 分の無料クレジットと 20 以上の Always Free プロダクトを活用して、Google Cloud で構築を開始しましょう。

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
コンソール
  • Google Cloud プロダクト
  • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
Google Cloud