ステップ
2
コースの説明
本コースは 4 日間のクラスルーム トレーニングであり、ハンズオンを通して Google Cloud Platform でのデータ処理システムの設計と構築を学習します。講義、デモ、ハンズオンラボを通して、データ処理システムの設計、エンドツーエンドのデータ パイプラインの構築、データの分析、機械学習の実施方法を学びます。このコースでは、構造化、非構造化、ストリーミングの各種データを扱います。
期間
4 日
目標
このコースでは、次のスキルについて学習します。
- Google Cloud Platform 上のデータ処理システムを設計し構築する
- バッチおよびストリーミングのデータを処理するために自動スケーリング データ パイプラインを Cloud Dataflow 上で実装する
- 巨大なデータセットからのビジネス分析情報を Google BigQuery を使用して引き出す
- 機械学習モデルを使用したトレーニング、評価、予測を TensorFlow と Cloud ML を使用して行う
- 非構造化データを Cloud Dataproc 上で Spark と ML の API を使って活用する
- ストリーミング データからの迅速な分析を実現する
実施方法
クラスルーム トレーニング、オンデマンド トレーニング
対象
このクラスは、デベロッパーとしての経験があり、次のようなビッグデータ変換の管理を担当する方を対象としています。
- データの抽出、読み込み、変換、クリーニング、検証を行う
- データ処理用のパイプラインとアーキテクチャを設計する
- 機械学習モデルと統計モデルを作成して保守する
- データセットに対してクエリを実行し、クエリ結果を可視化して、レポートを作成する
前提条件
このコースを最大限に活用するには、次の条件を満たしている必要があります。
- Google Cloud Platform Fundamentals: Big Data & Machine Learning を修了しているか、同等の経験がある
- SQL などの一般的なクエリ言語の基本的なスキルがある
- データ モデリング、抽出、変換、読み込みのアクティビティの経験がある
- 一般的なプログラミング言語(Python など)を使用してアプリケーションを開発している
- 機械学習と統計の一方または両方の基本知識がある
コースの概要
このコースには、講義、デモ、ハンズオンラボが含まれています。
Leveraging Unstructured Data with Cloud Dataproc on Google Cloud Platform(オンデマンドでも受講可能)
- クラスタの作成と管理
- カスタム マシンタイプとプリエンプティブ ワーカーノードを利用する
- クラスタのスケーリングと削除
- ラボ: Hadoop クラスタを Google Cloud Dataproc で作成する
- Pig と Hive のジョブを実行する
- ストレージとコンピューティングの分離
- ラボ: Hadoop と Spark のジョブを Dataproc で実行する
- ラボ: ジョブの送信と監視
- 初期化アクションによるクラスタのカスタマイズ
- BigQuery のサポート
- ラボ: Google Cloud Platform サービスの活用
- Google の機械学習 API
- 機械学習の一般的な使用例
- ML API の呼び出し
- ラボ: 機械学習機能をビッグデータ分析に追加する
Serverless Data Analysis with Google BigQuery and Cloud Dataflow(オンデマンドでも受講可能)
- BigQuery とは
- クエリと関数
- ラボ: BigQuery でクエリを記述する
- BigQuery へのデータの読み込み
- BigQuery からのデータのエクスポート
- ラボ: データの読み込みとエクスポート
- ネストされたフィールドと繰り返しのフィールド
- 複数のテーブルのクエリ
- ラボ: 複雑なクエリ
- パフォーマンスと料金
- Beam プログラミング モデル
- Beam Python のデータ パイプライン
- Beam Java のデータ パイプライン
- ラボ: Dataflow パイプラインの記述
- Beam を使用したスケーラブルなビッグデータの処理
- ラボ: Dataflow での MapReduce
- 追加データの組み込み
- ラボ: 副入力
- ストリーム データの処理
- GCP リファレンス アーキテクチャ
Serverless Machine Learning with TensorFlow on Google Cloud Platform(オンデマンドでも受講可能)
- 機械学習(ML)とは
- 効果的な ML: 概念、種類
- ML のデータセット: 一般化
- ラボ: ML のデータセットを調べて作成する
- TensorFlow の概要
- ラボ: tf.learn の使用
- TensorFlow のグラフとループ + ラボ
- ラボ: 下位レベルの TensorFlow の使用 + 早期停止
- ML のトレーニングのモニタリング
- ラボ: TensorFlow のトレーニングのチャートとグラフ
- Cloud ML を選ぶ理由
- TensorFlow モデルのパッケージ化
- エンドツーエンドのトレーニング
- ラボ: ML モデルをローカルとクラウドで実行する
- 優れた特徴の作成
- 入力の変換
- 合成機能
- Cloud ML での前処理
- ラボ: 特徴エンジニアリング
Building Resilient Streaming Systems on Google Cloud Platform(オンデマンドでも受講可能)
- ストリーム データの処理: 課題
- 可変データ ボリュームの処理
- 順序不定データ / 遅延データの処理
- ラボ: ストリーミング パイプラインの設計
- Cloud Pub/Sub とは
- 仕組み: トピックとサブスクリプション
- ラボ: シミュレータ
- ストリーム処理における課題
- 遅延データの処理: 透かし、トリガー、累積
- ラボ: ライブ トラフィック データのためのストリーム データの処理パイプライン
- ストリーミング分析: データから意思決定まで
- BigQuery でのストリーミング データのクエリ
- Google データポータルとは
- ラボ: 処理済みデータを可視化するリアルタイム ダッシュボードの構築
- Cloud Spanner とは
- Bigtable スキーマの設計
- Bigtable への取り込み
- ラボ: Bigtable へのストリーミング