Cloud OnAir

Cloud OnAir 番組レポート : Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう

cloudonair0904.png

Cloud OnAir は、Google Cloud の製品をわかりやすく解説し、最新の情報などをいち早く皆様にお伝えする Online 番組です。


10 月 31 日の放送では、「Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう」をテーマにお送りしました。企業の保有するデータは年々増加しており、それに従ってデータの保存にかかるコストも増大します。似たようなデータを複数のシステムが個別に管理していたり、データへのアクセスが部署に限定されているなどの理由からデータのサイロ化という課題に直面しています。


データ分析によってコストに見合うリターンを得るためには、大規模データに対応するデータ プラットフォームが必要です。今回の放送では、Cloud Data Fusion を中心に GCP への素早く簡単なデータ集約を実現するさまざまなサービスとツールをご紹介します。


Cloud Data Fusion を使う

Cloud Data Fusion(ベータ版) はフルマネージドかつクラウド ネイティブなデータ統合サービスです。CDAP という OSS ベースのマネージド サービスで、グラフィカルなインターフェースと、コネクタと変換が事前構成された幅広いオープンソース ライブラリを備えています。また、バッチとストリーミング処理の両方に対応しており、さまざまなデータソースを扱うことができます。


Data Fusion は、Kubernetes Engine(GKE)上に構築されており、メタデータ管理は、Cloud SQLPersistent DiskCloud Storage で行われています。パイプライン実行は Cloud Dataproc が担います。


以下は、Cloud Data Fusion の主要機能です。


  • パイプライン作成(DAG の作成)

  • 組み込みの Transform や Analytics によるデータ加工、Wrangler UI によるインタラクティブな変換

  • メタデータ管理とデータ リネージェ(データセットがどのパイプラインで利用されているかを可視化)

  • オーケストレーション

  • Hub - 再利用可能なさまざまなコンポネント

  • CDAP のカスタム プラグインやサードパーティのドライバなどの追加

Cloud Data Fusion には、Basic と Enterprise の 2 つのエディションが存在します。Basic は開発やテストでの利用を想定したもので、一部機能に利用制限がかかっています。Enterprise は本番環境での利用を想定したものです。


番組では、Cloud Data Fusion の基本的な使い方をデモでもご紹介します。Control Center や Studio などでパイプラインを実際に作成する様子をご覧いただけます。

番組で説明した資料はこちらで公開しています。

Cloud OnAir では、各回 Google Cloud のエンジニアがトピックを設け、Google Cloud の最新情報を解説しています。過去の番組、説明資料、さらには視聴者からの質問と回答はこちらよりご覧いただけます。 最新の情報を得るためにもまずはご登録をお願いします。