Google Cloud Platform

Cloud OnAir 番組レポート : 機械学習のプロジェクトの進め方

Cloud OnAir は、Google Cloud の製品をわかりやすく解説し、最新の情報などをいち早く皆様にお伝えする Online LIVE 番組です。

今回のテーマは「機械学習はこうやる!準備と実際のプロセスをお見せします」です。機械学習プロジェクトを成功に導くためのポイントを整理し、解説します。機械学習を始めるには何をすべきなのか、実際のプロジェクトではどのようにしてゴールを決めて、プロジェクトを進めていくか、関連する Google Cloud Platform(GCP)の各サービスを紹介します。

通常、機械学習プロジェクトは以下の 3 つのステップから構成されます。

1.システム要件の定義

機械学習が適用可能な問題を発見し、その問題が機械学習で解決できることなのか、あるいはできないのかを検討します。ルールベースで解決できるのであれば、その方が良い場合もあるので、機械学習の適用範囲を見極めることが重要です。

次に、問題解決に適した機械学習ツールやモデルを検討します。Google Cloud Platform には様々サービスがあるので、解決する課題に適してものを選択します。できるだけシンプルなものを使うことがポイントです。

さらに、機械学習モデルの構築に必要なデータを確認します。そして最後に機械学習モデルのデプロイ条件を決定します。デプロイ条件として最適化基準(正解率、適合率など)と満足化基準(モデルサイズや平均推論時間など)を決定します。ビジネス的観点と技術的観点の両面から確認することが重要です。

2.機械学習モデルの構築

機械学習モデルを構築する一連のプロセスを紹介します。
「データ収集とラベル付け」では、機械学習に必要なデータを集めて、ラベル付けを行います。ここで利用可能な GCP サービスが Cloud Storage です。構造化データのみならず非構造化データも保持でき、データ容量を心配する必要もありません。
「データの前処理」では、データの分割、加工、形式の変換等を行います。これを実現する上でお勧めのサービスが、Cloud DataflowCloud Dataprep です。
さらに、「機械学習モデルの実装」を行い、「最適化」「性能評価」を行って、機械学習モデルを固めて行きます。ここでは、最初から複雑なモデルを構築するのではなく、シンプルなモデルを作り、段階的に複雑なものにすることがポイントです。

3.機械学習モデルの適用

構築した機械学習モデルがデプロイ条件を満たしていることを確認して、Cloud ML Engine または Google Kubernetes Engine を使って、実運用環境へ機械学習モデルをデプロイします。デプロイ後は機械学習モデルが意図したように運用されているかを継続的に監視し、モデルの更新のタイミングを見定めます。

onair77

あわせて、番組で説明した資料はこちらで公開しています。

cloud-onair-live-2018524-1-638.jpg

なお、今回のテーマをさらに深掘りするトレーニングセッションを 5 月 31 日(木)18 時より放送します。機械学習モデルの構築に焦点を当てて、GCP の各サービスをどのように使うかを実践形式で紹介します。こちらもぜひご覧ください。

Cloud OnAir では、各回 Google Cloud のエンジニアがトピックを設け、Google Cloud の最新情報を解説しています。過去の番組、説明資料、さらには視聴者からの質問と回答はこちらよりご覧いただけます。 最新の情報を得るためにもまずはご登録をお願いします。