Data Fusion を使用したエンタープライズ データ統合

Google Cloud Japan Team
※この投稿は米国時間 2022 年 6 月 28 日に、Google Cloud blog に投稿されたものの抄訳です。
データ分析における課題は、データがあちらこちらに保存されていて、形式もさまざまであることです。そのため、データから分析情報を得るには、たいていは数多くの統合アクティビティを先に行う必要があります。Data Fusion は、取り込み、ETL、ELT、ストリーミングを含むあらゆるエンタープライズ データ統合アクティビティを一元管理でき、SLA と費用に対して最適化された実行エンジンを提供します。また、Google Cloud 環境、ハイブリッド クラウド環境、マルチクラウド環境を使用する ETL デベロッパー、データ アナリスト、データ エンジニアの負担を軽減するように設計されています。


Data Fusion は、Google のクラウド ネイティブでスケーラブルなフルマネージド エンタープライズ データ統合プラットフォームです。データベース、アプリケーション、メッセージング システム、メインフレーム、ファイル、SaaS、IoT デバイスから、さまざまな形式のトランザクション、ソーシャル、マシンのデータを取り込むことができます。また、使いやすいビジュアル インターフェースを備え、Spark 内のエフェメラルや専用の Dataproc クラスタでデータ パイプラインを実行するデプロイ機能を備えています。Cloud Data Fusion はオープンソースの CDAP を利用しているため、Google Cloud 環境、ハイブリッド クラウド環境、マルチクラウド環境間でパイプラインを移植できます。
データ統合機能
分析を最適化しデータ変換を高速化するデータ統合
Data Fusion は200 を超える幅広いコネクタと形式をサポートするため、データの抽出やブレンドが可能です。視覚的にデータ パイプラインを開発し、生産性の向上を図ることができます。
Data Fusion にはデータを準備するためのデータ ラングリング機能があり、データ ラングリングを運用化する機能でビジネス IT コラボレーションを改善できます。
豊富な REST API を活用して、パイプラインのライフサイクルを設計、自動化、オーケストレーション、管理できます。
Data Fusion はバッチ、ストリーミング、リアルタイムを含むすべてのデータ配信モードがサポートされているため、バッチとストリーミングの両方に関連したユースケースに対応する包括的なプラットフォームになっています。
Data Fusion からは、データ統合プロセスをモニタリングできるように、運用に関する分析情報が提供されます。SLA の管理、統合ジョブの最適化と微調整を行えます。
Data Fusion には Cloud AI を使用して非構造化データを解析し拡充する各種機能が用意されています。たとえば、音声ファイルのテキスト変換、NLP を適用した感情の検出、画像やドキュメントからの特徴の抽出、HL7 から FHIR への形式変換などが可能です。
データの整合性
Data Fusion の高度なデータ整合性機能があれば、自信を持ってビジネス上の意思決定ができるようになります。
Data Fusion では、変換、Wrangler によるデータ品質チェック、事前定義済みのディレクティブを指定する方法が構造化されているため、間違うリスクが最小限に抑えられます。
Data Fusion を使用すると、統合されるデータのプロファイルが追跡され、データのオブザーバビリティに基づいて意思決定できるため、品質の問題を特定しやすくなります。
データ形式は時間の経過とともに変化します。Data Fusion では変更を特定してエラー処理をカスタマイズすることでデータ ドリフトに対応できます。
メタデータとモデリング
Data Fusion では、メタデータを使用して分析情報を簡単に得られます。
データセットとパイプラインに関する技術上、ビジネス上、運用上のメタデータを収集できるうえ、検索でメタデータを簡単に見つけられます。
Data Fusion は、データモデルを理解し、データ、フロー、データセットの関係をプロファイルできるエンドツーエンドのデータビューを提供します。
Data Fusion を使用すると、カタログ間のメタデータの交換や、REST API を使用したエンドユーザーのワークベンチとの統合が可能になります。
Data Fusion のデータリネージ機能を使用すると、データフローや、ビジネス上の意思決定に合わせたデータの準備方法を把握できます。


オープン クラウド、ハイブリッド クラウド、マルチクラウド
Data Fusion はクラウドネイティブであり、CDAP を利用しています。CDAP は、オンプレミスとクラウドのデータ分析アプリケーションを構築するための 100% オープンソースのフレームワークです。つまり、ビジネスニーズに合わせて、変更を加えることなくさまざまな環境で統合パイプラインをデプロイして実行できます。
データ保護
次に示すように、Data Fusion にはデータ セキュリティを確保するための方法がいくつも用意されています。
プライベート IP でオンプレミス データへのアクセスを保護します。
デフォルトで、または顧客管理の暗号鍵(CMEK)を使用して、保存データを暗号化し、サポートされているストレージ システム内のすべてのユーザーデータを制御します。
プラットフォーム リソースのセキュリティ境界である VPC Service Controls を通じてデータの引き出し保護機能を提供します。
機密性の高いパスワード、URL、JDBC 文字列を Cloud KMS に保存し、外部の KMS システムと統合できます。
Cloud DLP と統合して、転送中のデータをマスキング、秘匿化、暗号化します。
まとめ
お客様の組織にも、さまざまなプラットフォームに閉じ込められているデータサイロがあるかもしれません。社内でデータのまとめ、変換の適用、データパイプラインの作成、すべてのデータチームの満足度と生産性の向上を担当されているなら、Cloud Data Fusion を使用してこれらの目標を達成できます。また、すでに Google Cloud データツールを使用して、Cloud Storage や Dataproc でのデータレイクのキュレート、データ ウェアハウジング用のデータの BigQuery への移動、Cloud Spanner などのリレーショナル ストア用のデータ変換を行っている場合は、Data Fusion の統合によって開発とイテレーションがさらに迅速かつ容易になります。Data Fusion の詳細については、ドキュメントをご確認ください。
#GCPSketchnote の詳細については、GitHub リポジトリをフォローしてください。同様のクラウド コンテンツについては、Twitter @pvergadia で発信しています。thecloudgirl.dev もぜひご覧ください。
- Google、デベロッパー アドボケイト リード Priyanka Vergadia- Google Cloud、プロダクト管理データ統合担当 Chaitanya(Chai)Pydimukkala



