Google Cloud Platform

Cloud OnAir 番組レポート : GCP で構築するデータ分析基盤の最新情報をご紹介

Cloud OnAir は、Google Cloud の製品をわかりやすく解説し、最新の情報などをいち早く皆様にお伝えする Online 番組です。

今回の放送は、GCP で構築するデータ分析基盤の最新情報についてお送りしました。

データの種類やデータソースの多様化、データ量が増加する中で、データ分析作業も複雑になっています。これに伴い、ビッグデータシステムの複雑な運用、継続的に増え続けるデータボリューム、安全なデータ管理、システムの安定稼働など多くの課題への対応が求められています。

番組では、Google Cloud Next '18 のアップデート情報も交えて、GCP を利用したデータ分析基盤の構築についてご紹介します。

GCP が提供するデータ分析基盤

データ分析基盤を構築するため、Google Cloud Platform ではさまざまな製品を提供しています。
番組では、上記の製品の中で、Cloud Dataprep と Cloud Composer を次の2つの例を用いて解説します。

ノンプログラミングでデータを加工する
イベント等で集めたアンケートの回答データを集計・分析する際には、事前にローデータから必要なデータを加工するケースがよくあります。Trifacta が運用する Cloud Dataprep はデータ加工を容易にするツールです。サーバーレスでフルマネージドであり、高度なデータクレンジング機能を提供します。簡単なデータ探索を GUI ベースで行うことも可能です。

Cloud Storage から BigQuery へのデータロード
Cloud Storage から BigQuery へのデータロードする代表的な方法を紹介します。Google App Engine で Cron を利用する、Google Cloud Functions でイベントドリブンな処理を行う、Cloud Storage からBigQuery のスケジュールをロードを行う、Cloud Composer を使うという4つの方法です。Cloud Composer を使うことによって、データロード後の分析の手続きを定義することも可能です。

新機能の紹介

BigQuery と Data Portal(旧 Data Studio)の新機能を紹介します。

BigQuery の新機能

  • BigQuery ML:BigQuery で標準 SQL クエリを使用して機械学習モデルを作成して実行できます。既存の SQL ツールやスキルを活用できるので、誰でも簡単に機械学習を利用できます。BigQuery ML では、データを移動する必要がないため、開発スピードを向上させることができます。
  • BigQuery GIS:標準 SQL で、ビッグデータ規模の GIS 分析を行うことができます。Earth Engine や Google マップ、Google Earth などを支えている計算ライブラリを利用しています。
Data Portal の新機能
無料のビジネス インテリジェンス(BI)サービスである、Data Portal の BI 機能がさらに高度化されました。
  • ワンクリックでデータを探索できる
  • 複数のデータソースをシンプルな右クリックだけで結合するデータブレンディング
  • D3.js フレームワークを用いたカスタムビジュアライゼーション

onair11

番組で説明した資料はこちらで公開しています。

cloud-onair-gcp-20181115-1-638.jpg

Cloud OnAir では、各回 Google Cloud のエンジニアがトピックを設け、Google Cloud の最新情報を解説しています。過去の番組、説明資料、さらには視聴者からの質問と回答はこちらよりご覧いただけます。 最新の情報を得るためにもまずはご登録をお願いします。