トヨタ: "AI プラットフォーム" を Google Cloud とのハイブリッド クラウドで開発、Cloud Workstation でさらに効率化を追求
後藤 広大
トヨタ自動車株式会社 生産デジタル変革室 AIグループ グループ長
※この投稿は米国時間 2024 年 12 月 10 日に、Google Cloud blog に投稿されたものの抄訳です。
自動車業界では「CASE(自動運転や電動化をはじめとする技術革新)」が進んでおり、100 年に 1 度といわれる大きな変革に直面しています。また少子高齢化による労働力減少への対応や、さらなる効率化や製造の自動化、品質向上が求められています。そこで注目されてきたのが AI 技術です。
トヨタ自動車は生産ラインの「自働化(*1)」や「ジャスト・イン・タイム方式(*2)」などの向上に一貫して取り組んできましたが、従来の技術の延長では自動化に対応できないような作業項目も多くあるのが実情でした。このような分野に AI を活用すれば作業を効率化し、従業員の負荷も軽減できます。
しかし AI 開発に必要な専門知識を持つ人材は常に不足しており、利用を普及させるうえでネックになってきました。この状況を改善すべく、2022 年初頭には生産デジタル変革室が中心となり、"AI プラットフォーム" の開発に着手。製造工程における重筋作業や目視検査など、人に負担のかかる単純作業をなくし、人にはより付加価値のある作業をしてもらうために、AI の専門知識を持たない現場の従業員でも、ウェブアプリを使って学習モデルを簡単なクリック操作で作成できるシステムの構築を目指しました。
その際に重視したのは、開発を内製化してノウハウを蓄積すること。最新の技術をキャッチアップし、開発の加速化や活用範囲を拡大すること。そしてエンジニアの開発体験を向上させながら、製造現場主導で 「AI 技術を民主化する(真に使いやすいプラットフォームを開発する)」ことでした。
*1 機械に異常が生じた場合に自動で停止し、不良品の発生を防止する仕組み
*2 必要な部品を必要な量だけ、必要なタイミングや順番で調達し、生産の効率化を図る仕組み
ハイブリッド アーキテクチャがもたらす数々のメリット
"AI プラットフォーム" とは、私たちが独自に開発してきた AI 技術、製造現場で学習モデルを簡単に作成できるウェブアプリ、製造ライン側の対応機器、そしてこれらを支えるシステムの総称です。その開発や運用基盤には、オンプレミスとクラウドを併用したハイブリッド アーキテクチャを選択しました。
1 つ目の狙いはアジャイル開発を進めていくことです。"AI プラットフォーム"ではサービスの増減やライブラリの変更などに柔軟に対応できるよう、マイクロサービス アーキテクチャを採用。数週間の短いサイクルで少しずつ機能をリリースする、「スクラム」と呼ばれる開発方法を採用しました。
少人数かつ短期間での開発が求められるスクラムにおいては、いかに作業を効率化するかが鍵を握ります。機械学習システムをオンプレミス完結でセキュアに開発する場合は、新機能の開発やライブラリを追加するたびに、依存関係も含めた大量のミドルウェアのセキュリティ チェックが必要となります。しかしクラウドでは、複雑で大量なコンテナ イメージを短時間でビルドしながら、高度なセキュリティを維持することができます。
2 つ目の狙いはリソースの有効活用です。昨今の半導体不足により、高性能な GPU などのリソース確保は難しくなってきており、学習モデルを作成する製造現場でも、シビアなコスト管理が求められてきています。
ハイブリッド クラウドにすれば、通常時はオンプレミス側のリソースを活用し、負荷が集中したときにクラウド側にスケールできるので、最適な形で運用しながら GPU 利用料を抑えることができます。将来、海外で "AI プラットフォーム" の利用者が増えた場合に、柔軟に対応することも可能にします。
ハイブリッド クラウドは、設備投資のコスト削減も実現します。オンプレミスに準拠した従来の環境では、すべての工場に GPU を搭載した高性能サーバを設置する必要がありました。
しかしハイブリッド クラウドなら、オンプレミスのサーバを 1 台に減らし、足りない分をクラウドで補うことができます。「必要なときに必要な分だけリソースを利用する」というハイブリッド クラウドのコンセプトは、弊社の「ジャスト・イン・タイム方式」の発想にも共通するのです。
システムの開発と運用に Google Cloud を選んだ理由
さまざまなメリットを持つハイブリッド クラウドを構築するために、私たちは Google Cloud を採用しました。Google Cloud には明らかなアドバンテージが複数あったからです。
まず挙げられるのは、GPU 利用の自由度です。高機能なGPUが 1 基から利用できることに加え、A2 VM と Google Cloud ならではのマルチインスタンス GPU や GPU タイム シェアリングが使えること、さらには Dynamic Workload Scheduler の存在など、Google Cloud は効率的に使える選択肢が豊富で、ランニングコストで明らかな優位性があります。
次は使い勝手の良さです。今後はマルチ リージョンにまたがって、GPU リソーセスを確保しなければならないケースが増えてくることが予想されます。Google Cloud は単一の VPC で管理できるので、ネットワークの複雑性を回避できます。この機能を備えているのは Google Cloud だけでした。
ビルドや処理の速さも大きな魅力でした。とりわけ Google Kubenetes Engine(GKE)の Autopilot と イメージ ストリーミングを活用すると、柔軟で高速な運用が実現できます。検討過程ではコンテナ化の通信速度も計測しましたが、Google Cloud は既存のサービスよりもゼロスケールが 4 倍高速でした。学習モデルの作成では1万枚にも及ぶ画像データを利用しますので、通信や処理の速さはきわめて重要です。内製で AI 技術を開発し始めた当初は、システムのスケールや運用で苦労していましたので、Google Cloud を利用するのは理想的な選択でした。
わずか 6 名 のメンバーで 1 年半で大規模な開発を完了
Google Cloud の採用を決めた後は、Google Cloud 側とアーキテクチャの検討を開始。構想が固まってきた段階で、開発パートナーを紹介いただきました。そのうえで「技術の手の内化(新たなノウハウの習得と蓄積)」のためにスキルを学びつつ、クラウド リフトに向けたウェブアプリのアーキテクチャ変更、プラットフォーム構築、 社内の人材育成などに取り組んでいきました。
実装の過程では、オンプレミスとクラウド間でのワークロードの切り分け、通信やリソーセス監視方法の決定に時間をかけました。CI/CD のパイプラインやイメージデータはクラウドに移行。クラウド側でビルドまで行い、オンプレミス側にイメージをキャッシュさせることで、迅速な立ち上げと柔軟な運用を実現させています。
開発を担当したのは私を含めて 6 名のメンバーでしたが、Google Cloud に伴走いただいたおかげで、全工程を 1 年半ほどで完了しました。これは Google Cloud の製品が開発しやすいことに加えて、文化的な要因も大きいと感じています。製造現場の作業をできるだけ自働化するという目的意識は、Google が提唱するサイト信頼性エンジニアリング(SRE)に通底しています。この意味でも、同じ問題意識を共有することができました。
現在、ハイブリッド クラウドでは、オンプレミスに GKE Enterprise クラスタを導入し、Google Cloud 上の GKE クラスタと連携させています。
"AI プラットフォーム" やウェブアプリの開発を行う際には、 Git の CI トリガーで Cloud Build を実行。Artifact Registry と Container Analysis でコンテナイメージの脆弱性を検証しつつ、Binary Authorization でセキュアな環境を確保しています。
製造現場においては、数値データなどの構造データや画像をはじめとする非構造化データがウェブアプリを介して GKE 上に展開され、NVIDIA T4 GPU を基盤とした N1 VM、NVIDIA A100 GPU を基盤とした A2 VM で学習モデルが作成される仕組みです。
"AI プラットフォーム" の運用で得られた目覚ましい成果
このような運用体制は、目覚ましい成果を上げています。まず開発体験に関しては、作業の待ち時間が削減されるとともに、運用やセキュリティ確保の負担が軽減され、開発にさらに集中できるようになりました。
製造現場における "AI プラットフォーム" の利用も拡大しています。学習モデルの作成には、短い場合は 10 分から15 分、長い場合は 10 時間ほどかかりますが、GKE の Image Streaming により、Pod の起動時間や学習時間が短縮され、学習モデルの作成時間が 20% ほど削減されました。この結果、ユーザー エクスペリエンス(UX)が改善され、ユーザー数も増加しているため、製造現場で誕生するモデルの数も右肩上がりに増加。2023 年は 8,000 件でしたが、2024 年は 10,000 件になる見込みです。こうした利用の普及は、実際の製造工程で年間あたり約 1 万時間以上の工数削減を可能にしました。
"AI プラットフォーム" は、すでに弊社すべての車両・ユニット工場(10 工場)で利用されており、活用の幅も広がってきました。高岡工場では完成部品の検査だけでなく、バックドアのガラス貼り付けに使う接着剤の塗布状況の検査、バンパーなどの製造に利用する射出成形機の異常検知にも活用されています。一方、社内のアクティブ ユーザーも 1,200 名近くに増加し、社内研修には年間、400 名以上が参加するようになりました。
最近では、他の部署で開発を行っていた人が Google Cloud に興味を示し、私たちの開発チームに加わったケースもあります。また今回のプロジェクトを機に、社内でクラウド技術そのものに対する抵抗感が薄れ、他の部署でもクラウドの導入を検討し始めるという、かつてない動きも生まれています。
生成 AI も視野に Cloud Workstations を活用、開発・運用生産性向上を追求
"AI プラットフォーム" に関しては、検知の際の判断基準をより詳細に設定できる AI モデルの開発、自動ピッキングへの実装、製造ライン全体の保守や予兆管理での利用などを計画しています。プラットフォームに集められたビッグデータを元にした、オリジナルの基盤モデル活用も進んできており、今後より積極的に活用が拡大していくことでしょう。
Google Cloud 自体の活用も拡大しつつあります。現在、開発チームでは作業ログや現場からのフィードバックを集計していますが、生成 AI を活用するようになる日も近いと考えています。例えば開発チームでは、機械学習のテスト用に生成 AI で画像を作成することで、今まではデータが不足するため導入が難しかった、生産準備段階での AI 活用も視野に入れています。また、Gemini コード アシスタンスを活用して開発者体験を向上させる、あるいは過去の知見を Gemini で RAG 化し、レコメンド機能を実装することなども検討しています。
さらに 2024 年 3 月には Google Cloud の Tech Acceleration Program(TAP)に参加し、Cloud Workstations を導入しました。これも私たちが取り組んできた、マネージド サービスの活用による効率化や負荷軽減、より快適な労働環境の実現を目的としたものです。
本プロジェクトでは、製造現場主導で、誰もが簡単に AI 学習モデルを作成・活用するという「新たなモノづくり」の方法を確立し、弊社のビジネス バリューを大きく高めることに成功しました。それを可能にしたのが Google Cloud が提供する最先端の技術とサービスです。
生産ラインの「自働化」や「ジャスト・イン・タイム方式」などと同様に、今や "AI プラットフォーム" は弊社の製造現場に欠かせないものになっていますので、今後も Google Cloud を活用しながら、より良いクルマづくりに取り組んでいきたいと考えています。