コンテンツに移動
データ分析

データ分析を実現する Data Fusion の一般提供を開始

2019年12月18日
Google Cloud Japan Team

※この投稿は米国時間 2019 年 12 月 4 日に、Google Cloud blog に投稿されたものの抄訳です。

信頼できる柔軟なデータ統合を構築し、ビジネスに必要なデータを収集して分析用に準備することは、ビッグデータ分析の成功には不可欠な要素です。しかしながら、従来のデータ処理や DIY 方式の ETL プロセスは複雑で時間がかかるため、データ分析の速度が低下してしまいます。Google Cloud では、データ統合と取り込みプロセスを徹底的に効率化して、分析情報を得るまでの時間を短縮することを目標としています。そこで、ETL と ELT データ パイプラインをコードを意識せずに開発できるようにしました。ここに、Cloud Data Fusion の一般提供の開始をお知らせいたします。これはデータの取り込みと統合のためのクラウド ネイティブなマネージド サービスで、経験豊富なデータ エンジニアの能力をあらゆるチームに取り入れることができます。コードに関する知識がほとんどない、あるいはまったくなくても問題ありません。

Data Fusion を利用することで、デベロッパー、データ エンジニア、ビジネス アナリストは、ETL と ELT パイプラインを簡単に構築、管理して、広範なソースからのデータのクレンジング、変換、ブレンドを行うことができます。専門家に依頼することによるボトルネックをなくして、データから情報を取得することに集中できます。オープンソース プロジェクトの CDAP をベースに構築されているため、Data Fusion はオープンコアであり、ユーザーはハイブリッドなマルチクラウド環境でポータビリティを実現できます。CDAP はオンプレミスとパブリック クラウドの幅広いプラットフォームと統合できるので、ユーザーは BigQuery などの Google Cloud のビッグデータや分析ツールに簡単にアクセスできます。 

Vodafone、Data Fusion により BI のモダナイゼーションをこれまでの数四半期単位から数週間単位に短縮

Vodafone は複雑な BI から実用的な情報分析に移行するためにデータと分析について見直しを行いました。今では Cloud Data Fusion を利用して、グローバル市場全体で BI スタック運用のモダナイゼーションに成功しています。

Vodafone Group のビジネス インテリジェンスおよび分析担当ディレクターである Osman Peermamode 氏は、次のように述べています。「業務を行っている 26 か国の BI スタックのモダナイゼーションは複雑で難題です。Cloud Data Fusion は、BI のモダナイゼーションにおいて基礎を成す重要な要素の一つです。Data Fusion を利用すると、さまざまなソースからデータを迅速に集約する、コードを使用せずにクレンジングやブレンドを行う、パイプラインを標準化するなどして、プロジェクトの実現を加速化できます。生産性が高まるだけでなく、複数の市場を迅速に変革するための俊敏性も実現できています。さらに、データの読み込みとデータレポートへのアクセスも格段に速くなりました。以前は 36 時間かかっていたことが 25 分で済みます。最後に、Data Fusion のリネージ機能によって、KPI の品質に関する必要性の高い分析情報を得ることができています。Google Cloud および Data Fusion チームと連携して、BI 変革を成功させていることを大変嬉しく思っています。」

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_v45GljY.max-1700x1700.max-1500x1500.png
Google Cloud のお客様は、Data Fusion を利用して、クラウドで最新のデータ ウェアハウスを構築し、BI 変革を促進しています

Data Fusion ベータ版ユーザーのご意見やご感想を伺い、ご要望のあった機能も搭載して、Data Fusion を一般公開する運びとなりました。Data Fusion では、次のような新機能がリリースされています。

  • プライベート IP を使用した、オンプレミス データへの安全なアクセス

  • 顧客管理の暗号鍵(CMEK)を使用した、保存データの暗号化 

  • データ流出を防止する VPC Service Controls

  • アルファ版でのフィールドレベルのデータリネージ

  • 拡張されたコネクタ エコシステム

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_FtTRhwl.max-1800x1800.max-1800x1800.png

Data Fusion について

Data Fusion は、パイプラインを構築してすべてのデータをまとめる処理を簡素化します。最近リリースされた機能の詳細を以下に示します。 

プライベート IP を使用した、オンプレミス データへの安全なアクセス

データ移動の保護は簡単に行えるのが理想です。Data Fusion のプライベート サービス アクセスを利用すると、パブリック インターネット経由ではアクセスできないプライベート IP 専用コンピューティング リソース上で完全に動作するようにインスタンスをロックダウンできます。インスタンスは、RDBMS などのオンプレミス リソースにプライベート ネットワーク経由で安全に接続できます。つまり、Data Fusion からデータにアクセスするために、禁止されているネットワーク変更を行う必要がなくなりました。

顧客管理の暗号鍵を使用した、保存データの暗号化 

保存データの暗号化は、あらゆるデータ保護戦略の基礎を成します。Google Cloud Platform(GCP)は、Google のデフォルトの暗号鍵を使用して、保存データを暗号化します。デフォルトで暗号化を行うことに加えて、Data Fusion では、顧客管理の暗号鍵(CMEK)がサポートされるようになりました。これで、サポートされるストレージ システム内のあらゆるユーザーデータをさらに高いレベルで制御できます。CMEK で暗号化されたデータは、ソースとして読み取ることができます。また、GCP でサポートされる各種サービスを対象に書き込まれたデータは、CMEK の鍵を指定してすべて暗号化できます。 

データ流出を防止する VPC Service Controls

機密データの保護の要件はこれまでになく厳しくなっています。VPC Service Controls を利用すると、GCP ユーザーは、プライベート データを保護して流出のリスクを最小限に抑えるために、プラットフォーム リソースにセキュリティ境界を定義できます。これにより、ご利用のサービス境界に Data Fusion インスタンスを追加して、VPC Service Controls の環境でパイプラインを実行できるようになりました。 

アルファ版でのフィールドレベルのデータリネージ

フィールドレベルのリネージにより、企業はデータエラーの根本原因の分析といった重要なタスクの効率化、変更による影響の分析、データのシームレスな管理を実現できます。また、個々のフィールドで実行された変換を含め、詳細なレベルでデータフローに沿ってデータをトレースできるので、コンプライアンスや法規制に関するレポート作成を実現するための重要な役割を果たします。

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_5yDqPwk.max-1800x1800.max-1600x1600.png

拡張されたコネクタ エコシステム

このリリースの Data Fusion には、さまざまなリレーショナル データベース(SAP Hana、Teradata)、NoSQL ストア(MongoDB)、SaaS アプリケーション(Salesforce、Google アナリティクス 360 など)からのデータの統合をサポートする新しいコネクタも含まれています。

現在の環境にかかわらず、クラウドでのデータ分析が可能になります。ぜひ、Data Fusion クイックスタート ガイドを参照して、初めてのパイプラインを構築してみましょう。

- by プロダクト マネージャー Bhooshan Mogal、グループ プロダクト マネージャー Nitin Motgi

投稿先