ステップ
2
Data Engineering on Google Cloud Platform
本コースは 4 日間のクラスルーム トレーニングであり、ハンズオンを通して Google Cloud Platform でのデータ処理システムの設計と構築を学習します。
期間: 4 日

コースの説明

本コースは 4 日間のクラスルーム トレーニングであり、ハンズオンを通して Google Cloud Platform でのデータ処理システムの設計と構築を学習します。講義、デモ、ハンズオンラボを通して、データ処理システムの設計、エンドツーエンドのデータ パイプラインの構築、データの分析、機械学習の実施方法を学びます。このコースでは、構造化、非構造化、ストリーミングの各種データを扱います。

期間

4 日

目標

このコースでは、次のスキルについて学習します。

  • Google Cloud Platform 上のデータ処理システムを設計し構築する
  • バッチおよびストリーミングのデータを処理するために自動スケーリング データ パイプラインを Cloud Dataflow 上で実装する
  • 巨大なデータセットからのビジネス分析情報を Google BigQuery を使用して引き出す
  • 機械学習モデルを使用したトレーニング、評価、予測を TensorFlow と Cloud ML を使用して行う
  • 非構造化データを Cloud Dataproc 上で Spark と ML の API を使って活用する
  • ストリーミング データからの迅速な分析を実現する

実施方法

クラスルーム トレーニング、オンデマンド トレーニング

対象

このクラスは、デベロッパーとしての経験があり、次のようなビッグデータ変換の管理を担当する方を対象としています。

  • データの抽出、読み込み、変換、クリーニング、検証を行う
  • データ処理用のパイプラインとアーキテクチャを設計する
  • 機械学習モデルと統計モデルを作成して保守する
  • データセットに対してクエリを実行し、クエリ結果を視覚化して、レポートを作成する

前提条件

このコースを最大限に活用するには、次の条件を満たしている必要があります。

  • Google Cloud Platform Fundamentals: Big Data & Machine Learning を修了しているか、同等の経験がある
  • SQL などの一般的なクエリ言語の基本的なスキルがある
  • データ モデリング、抽出、変換、読み込みのアクティビティの経験がある
  • 一般的なプログラミング言語(Python など)を使用してアプリケーションを開発している
  • 機械学習と統計の一方または両方の基本知識がある
コースの概要

このコースには、講義、デモ、ハンズオンラボが含まれています。

Leveraging Unstructured Data with Cloud Dataproc on Google Cloud Platform(オンデマンドでも受講可能

  • クラスタの作成と管理
  • カスタム マシンタイプとプリエンプティブ ワーカーノードを利用する
  • クラスタのスケーリングと削除
  • ラボ: Hadoop クラスタを Google Cloud Dataproc で作成する
  • Pig と Hive のジョブを実行する
  • ストレージとコンピューティングの分離
  • ラボ: Hadoop と Spark のジョブを Dataproc で実行する
  • ラボ: ジョブの送信と監視
  • 初期化アクションによるクラスタのカスタマイズ
  • BigQuery のサポート
  • ラボ: Google Cloud Platform サービスの活用
  • Google の機械学習 API
  • 機械学習の一般的な使用例
  • ML API の呼び出し
  • ラボ: 機械学習機能をビッグデータ分析に追加する

Serverless Data Analysis with Google BigQuery and Cloud Dataflow(オンデマンドでも受講可能

  • BigQuery とは
  • クエリと関数
  • ラボ: BigQuery でクエリを記述する
  • BigQuery へのデータの読み込み
  • BigQuery からのデータのエクスポート
  • ラボ: データの読み込みとエクスポート
  • ネストされたフィールドと繰り返しのフィールド
  • 複数のテーブルのクエリ
  • ラボ: 複雑なクエリ
  • パフォーマンスと料金
  • Beam プログラミング モデル
  • Beam Python のデータ パイプライン
  • Beam Java のデータ パイプライン
  • ラボ: Dataflow パイプラインの記述
  • Beam を使用したスケーラブルなビッグデータの処理
  • ラボ: Dataflow での MapReduce
  • 追加データの組み込み
  • ラボ: 副入力
  • ストリーム データの処理
  • GCP リファレンス アーキテクチャ

Serverless Machine Learning with TensorFlow on Google Cloud Platform(オンデマンドでも受講可能

  • 機械学習(ML)とは
  • 効果的な ML: 概念、種類
  • ML のデータセット: 一般化
  • ラボ: ML のデータセットを調べて作成する
  • TensorFlow の概要
  • ラボ: tf.learn の使用
  • TensorFlow のグラフとループ + ラボ
  • ラボ: 下位レベルの TensorFlow の使用 + 早期停止
  • ML のトレーニングのモニタリング
  • ラボ: TensorFlow のトレーニングのチャートとグラフ
  • Cloud ML を選ぶ理由
  • TensorFlow モデルのパッケージ化
  • エンドツーエンドのトレーニング
  • ラボ: ML モデルをローカルおよびクラウドで実行する
  • 優れた特徴の作成
  • 入力の変換
  • 合成機能
  • Cloud ML での前処理
  • ラボ: 特徴エンジニアリング

Building Resilient Streaming Systems on Google Cloud Platform(オンデマンドでも受講可能

  • ストリーム データの処理: 課題
  • 可変データ ボリュームの処理
  • 順序不定データ / 遅延データの処理
  • ラボ: ストリーミング パイプラインの設計
  • Cloud Pub/Sub とは
  • 仕組み: トピックとサブスクリプション
  • ラボ: シミュレータ
  • ストリーム処理における課題
  • 遅延データの処理: 透かし、トリガー、累積
  • ラボ: ライブ トラフィック データのためのストリーム データの処理パイプライン
  • ストリーミング分析: データから意思決定まで
  • BigQuery でのストリーミング データのクエリ
  • Google データスタジオとは
  • ラボ: 処理済みデータを視覚化するリアルタイム ダッシュボードの構築
  • Cloud Spanner とは
  • Bigtable スキーマの設計
  • Bigtable への取り込み
  • ラボ: Bigtable へのストリーミング