콘텐츠로 이동하기
Hybrid & Multicloud

Toyota, 오버드라이브로 전환: 제조 효율성 개선을 위한 AI Platform 개발

2025년 1월 16일
https://storage.googleapis.com/gweb-cloudblog-publish/images/20240506_060544076_iOS.max-2600x2600.jpg
Kohdai Gotoh

AI Group, Production Digital Transformation Dept, Toyota Motor Corporation

영업 대표 연락하기

귀하의 클라우드에 대한 이슈를 전문 영업 대표를 통해 논의해보세요.

연락하기

* 본 아티클의 원문은 2024년 12월 10일 Google Cloud 블로그(영문)에 게재되었습니다. 

 

현재 자동차 업계는 CASE, 즉 커넥티드 카(Conneted Car), 자동화된 자율 주행(Autonomous and Automated Driving), 공유 차량(Shared Mobility), 전동화(Electrification)를 화두로 대변혁의 시대를 마주하고 있습니다. 그 여파로 제조업체들은 효율성을 끌어올리고, 제조 공정을 자동화하고, 품질을 개선하는 데 더욱 매진해야 하는 상황이 되었습니다. AI는 이러한 발전을 가능하게 하는 강력한 도구로 주목받고 있습니다. 이렇듯 역동적인 환경 속에서 Toyota는 공장 직원이 핵심 사용 사례를 아우르는 머신러닝 모델을 개발하고 배포할 수 있도록 뒷받침하는 혁신적인 AI Platform을 구축하고자 했고, 이를 위해 Google Cloud의 AI 인프라를 활용하기로 했습니다.

Toyota의 명성 높은 생산 시스템인 Toyota 생산 방식(TPS)은 (사람의 손길을 더한) '지도카'(자동화)와 재고 관리의 '적시성'을 원칙을 토대로 제조 효율성 방면에서 오랜 시간 동안 업계의 절대적인 표준이었습니다. 하지만 이 시스템에는 통상적인 자동화에 맞지 않는 부분이 있었습니다. 

Toyota는 2018년부터 내부적으로 AI를 사용해 보기 시작했습니다. 하지만 AI 개발에 필요한 전문성을 갖춘 직원이 부족해 다방면에서 AI의 사용을 장려하는 데 병목 현상이 발생했습니다. 이러한 어려움을 극복하기 위해 2022년 Toyota의 생산 디지털 혁신 부서는 공장 내에서 AI 개발을 범용화하겠다는 임무에 착수했습니다.

목표는 공장 직원이 AI 전문성과 관계없이 머신러닝 모델을 손쉽게 만들 수 있도록 지원하는 AI Platform을 구축하는 것이었습니다. 이렇게 하면 노동 집약적인 수동 작업을 자동화하여 프로세스를 최적화하고, 다른 생산 영역에 AI를 구현하고, 데이터에 기반하여 의사 결정을 내리는 등 직원들이 더 가치 있는 일에 집중할 수 있습니다.

AI Platform은 Toyota가 개발하고 있는 AI 기술을 포괄적으로 가리키는 용어로, 여기에는 제조 현장에서 손쉽게 학습 모델을 만들 수 있게 하는 웹 애플리케이션, 제조 라인에서 호환되는 장비, 이러한 기술을 지원하는 시스템이 포함됩니다.

올해 초 AI Platform 구현을 마쳤을 당시, 제조 효율성과 프로세스 최적화를 통해 일상 업무에서 연간 최대 10,000시간을 절약할 수 있다는 사실을 알게 되었습니다.

이와 같은 전사적인 이니셔티브를 위해, 관련 노하우를 축적할 수 있도록 사내에서 개발을 진행했습니다. 또한 개발을 가속화하고 AI 배포 기회를 확장하기 위해서는 항상 최신 기술에 촉각을 곤두세우고 있어야 했습니다. 무엇보다도 AI 기술을 범용화하여 누구나 사용하기 쉬운 플랫폼을 만드는 일이 정말 중요했습니다. 제조 현장의 직원이 AI를 더 적극적으로 사용할 수 있게 하려면 당연히 이러한 직원의 주도적인 참여가 필요했습니다. 여기에 소프트웨어 엔지니어의 개발 환경을 개선해야 한다는 목표가 더해졌습니다.

하이브리드 아키텍처로 얻을 수 있는 수많은 이점

Toyota는 AI Platform을 강화하기 위해 온프레미스 인프라와 클라우드 컴퓨팅을 결합한 하이브리드 아키텍처를 선택했습니다.

첫 번째 목표는 민첩한 개발 환경의 조성이었습니다. 하이브리드 클라우드 환경에 마이크로서비스 기반 아키텍처와 애자일 개발 방법론을 적용하여 강력한 보안을 유지하면서도 새로운 기능을 빠르게 반복하고 배포할 수 있었습니다. 마이크로서비스 아키텍처로 전환하게 된 계기는 서비스와 라이브러리의 변화에 유연하게 대응할 필요가 있다고 판단했기 때문입니다. 이러한 전환의 일환으로 팀에서는 몇 주 단위의 짧은 주기로 기능을 점진적으로 출시하는 'SCRUM'이라는 개발 방식을 도입했고, 그 결과 워크플로를 간소화할 수 있었습니다.

보안을 목적으로 온프레미스에만 머신러닝 시스템을 개발했다면, 새로운 기능이나 라이브러리를 추가할 때마다 종속 항목을 비롯한 대규모의 미들웨어에 보안 점검을 시행해야 했을 것입니다. 하지만 하이브리드 클라우드를 사용하면 높은 수준의 보안을 유지하면서도 복잡한 대용량 컨테이너 이미지를 빠르게 구축할 수 있습니다.

두 번째 목표는 리소스의 효율적인 사용이었습니다. 이제 AI 모델이 만들어지는 제조 현장에서도 엄격한 비용 효율성 요건을 충족해야 하는 상황입니다. 

하이브리드 클라우드 접근 방식을 사용하면 일상적인 운영에는 온프레미스 리소스를 사용하고 수요가 높을 때는 클라우드로 확장할 수 있기 때문에 GPU 사용에 따른 비용을 줄이고 성능을 최적화할 수 있습니다. 뿐만 아니라 향후 AI Platform 사용자가 증가할 경우에도 유연하게 대처할 수 있습니다.

하이브리드 클라우드 도입은 설비 투자에 드는 비용을 절약하는 데에도 도움이 됩니다. Toyota는 용량 확장에 클라우드를 활용하면서 광범위한 온프레미스 하드웨어 투자의 필요성을 최소화할 수 있었습니다. 기존의 온프레미스 환경에서는 모든 공장에 GPU가 있는 고성능 서버를 마련해야 했습니다. 하이브리드 클라우드를 사용하면 공장에 필요한 온프레미스 서버 수를 하나로 줄일 수 있을 뿐 아니라 클라우드를 사용해 필요할 때마다 추가적인 처리 용량을 지원할 수 있습니다. 하이브리드 클라우드의 '필요할 때만 리소스를 사용'한다는 개념은 Toyota의 '적시성' 원칙에도 부합합니다.

Toyota가 Google Cloud AI Hypercomputer를 선택한 이유 

Toyota는 여러 가지 요인을 고려하여 AI Platform의 하이브리드 아키텍처 개발을 위한 클라우드 파트너를 선정했고, 최종적으로 Google Cloud를 선택하게 되었습니다. 

첫 번째 요인은 GPU 사용의 유연성입니다. 하나의 유닛에서 고성능 GPU를 사용할 수 있을 뿐 아니라, 멀티 인스턴스 GPU시간 공유 GPU 같은 Google Cloud만의 기능을 갖춘 A2 VM도 사용할 수 있습니다. 이러한 유연성은 유휴 컴퓨팅 리소스를 줄이고 비용을 최적화하며, 적은 수의 GPU로 머신러닝을 더 많이 학습시킬 수 있어 주어진 시간 동안 더 높은 비즈니스 가치를 창출하게 됩니다. 이에 더해 동적 워크로드 스케줄러로 GPU 리소스를 효율적으로 관리하고 예약할 수 있기 때문에 운영 비용 최적화에도 도움이 됩니다. 

다음 요인은 사용 편의성입니다. 앞으로 여러 리전에 더 많은 GPU 리소스가 필요할 것으로 예상합니다. Google Cloud를 사용하면 단일 VPC를 통해 GPU 리소스를 관리하면서 네트워크 복잡성을 피할 수 있습니다. 배포할 시스템을 고려하는 과정에서 이와 같은 역량을 갖춘 유일한 서비스가 바로 Google Cloud였습니다.

빌드 및 처리 속도 역시 큰 장점으로 다가왔습니다. 특히 Google Kubernetes Engine(GKE)Autopilot, 이미지 스트리밍의 유연성과 속도 덕분에 비용 효율성이 개선되어 운영 부담이 줄어듭니다. 시스템 평가 프로세스에서 컨테이너화의 통신 속도를 측정한 결과, Google Cloud가 기존의 다른 서비스보다 0부터 확장하는 속도가 4배 더 빠른 것으로 나타났습니다. Toyota는 학습 모델을 만들 때 최대 10,000개의 이미지를 사용하기 때문에 통신 및 처리 속도가 굉장히 중요합니다. 사내에서 AI 기술 개발을 처음 시작했을 때 유연한 시스템 확장과 운영 측면에서 어려움을 겪었습니다. 이 점에서도 Google Cloud는 탁월한 선택이었습니다.

대규모 개발을 6명으로 1.5년 만에 완료

Google Cloud 덕분에 개발자 6명으로 구성된 소규모 팀으로 놀라운 성과를 거둘 수 있었습니다. AI Platform을 성공적으로 구축하고 배포하기까지 걸린 시간은 Toyota에서 일반적인 시스템 개발 프로젝트에 드는 시간의 절반 수준이었습니다. 개발 시간을 줄일 수 있었던 이유는 Google Cloud의 사용자 친화적인 도구와 협업 방식이 Toyota의 자동화 중심 문화와 잘 맞아떨어졌기 때문입니다.

Google Cloud를 선택하고 나서, Google Cloud팀과 함께 아키텍처에 대한 논의를 시작했습니다. 그런 다음 클라우드 리프트를 위해 웹 앱 아키텍처를 수정하고, 하이브리드 클라우드를 구축하고, 회사 내의 인적 자원을 개발하는 동시에 '기술의 내재화(새로운 노하우을 얻고 축적하는 과정)'를 위해 기술을 함양하는 데 착수했습니다. 구현 과정에서는 워크로드를 온프레미스 아키텍처와 클라우드 아키텍처로 나누고, 통신 및 리소스를 모니터링할 수 있도록 권장사항을 시행했습니다. CI/CD 파이프라인과 이미지 데이터를 클라우드에 마이그레이션하는 작업도 함께 진행했습니다. 클라우드에서 구축을 진행하고 온프레미스에서 이미지를 캐싱함으로써 빠른 시작과 유연한 운영을 실현할 수 있었습니다.

Google Cloud 제품의 개발 편의성 외에도, 문화적 요인 역시 이 프로젝트의 성공에 크게 기여했습니다. 제조 공정을 최대한 자동화하겠다는 Toyota의 목표는 Google의 사이트 안정성 엔지니어링(SRE) 개념과 부합합니다. 같은 목적의식을 공유하고 있던 셈입니다.

https://storage.googleapis.com/gweb-cloudblog-publish/images/image3_YErb33A.max-2000x2000.png

현재, 하이브리드 클라우드 환경에서 온프레미스에 GKE Enterprise 클러스터를 배포하고 이를 Google Cloud의 GKE 클러스터에 연결하고 있습니다. AI Platform과 웹 앱을 개발할 때는 Git CI 트리거를 사용해 Cloud Build를 실행하고, Artifact Registry 컨테이너 분석을 사용해 컨테이너 이미지 취약점을 확인하고, Binary Authorization으로 안전한 환경을 마련했습니다. 제조 현장에서는 정형 데이터(수치 데이터 등)와 비정형 데이터(이미지 등)를 웹 앱을 통해 GKE에 배포하며, NVIDIA T4 GPU가 장착된 N1 VM과 NVIDIA A100 GPU가 장착된 A2 VM에 학습 모델을 만듭니다.

AI Platform 운영을 통해 놀라운 성과 달성

이 운영 구조를 통해 Toyota는 놀라운 성과를 달성할 수 있었습니다. 

개발자 환경 개선: 먼저 개발 환경 면에서는 작업의 대기 시간과 운영 및 보안 관련 부담이 줄어들어 개발에 더 중요한 부분에 집중할 수 있게 되었습니다.

사용자 도입률 증가: Toyota의 AI Platform을 사용하는 제조 현장 또한 늘어났습니다. 학습 모델을 만드는 데는 보통 짧으면 10~15분, 길면 최대 10시간이 소요됩니다. GKE의 이미지 스트리밍은 포드 초기화를 간소화하고 학습 속도를 높여 주기 때문에 학습 모델을 만드는 데 드는 시간을 20% 줄일 수 있습니다. 이와 같은 개선으로 제조 현장의 사용자 경험(UX)에도 긍정적인 영향을 미치게 되어 사용자 수가 대폭 증가하는 결과로 이어졌습니다. 자연스럽게 제조 현장에서 만들어지는 모델의 수도 2023년 8,000개에서 2024년 10,000개로 꾸준히 증가하고 있습니다. 이 기술이 광범위하게 도입되면서 실제 제조 공정에서 연간 약 10,000시간에 달하는 공수가 줄어들어 효율성과 생산성이 최적화되었습니다.

영향력 확대: AI Platform은 이미 Toyota의 모든 차량과 유닛 제조 공장(총 10개 공장)에서 사용되고 있으며, 그 적용 범위가 점점 넓어지고 있습니다. 다카오카시에 있는 공장에서는 AI Platform을 사용하여 완성된 부품을 점검하는 것은 물론, 제조 공정에서 뒷문에 유리를 붙이는 데 사용되는 접착제 도포를 점검하고, 범퍼와 기타 부품 제조에 사용되는 사출 성형 기계의 이상을 감지하기도 합니다. 한편 회사 내 활성 사용자 수는 약 1,200명으로 늘어났으며 400명이 넘는 직원들이 매년 사내 교육 프로그램에 참여하고 있습니다.

최근에는 다른 부서의 개발 담당자들이 Google Cloud에 관심을 갖고 제가 속한 개발팀에 합류하는 경우도 있었습니다. 뿐만 아니라, 이 프로젝트는 회사 내에 전례 없는 전환을 촉발하기도 했습니다. 클라우드 기술 자체에 대한 반감이 사라지면서 다른 부서에서도 이 기술을 도입하려는 움직임이 보이고 있습니다.

생성형 AI를 중심으로 생산성 향상에 Cloud Workstations 활용

팀에서는 AI Platform에 더 세부적인 감지 기준을 설정할 수 있는 AI 모델을 개발하여 자동화된 선별 프로세스에 이 모델을 구현하고, 생산 라인 전체의 유지보수와 예측 관리에 사용할 계획입니다. 또한 AI Platform에 수집된 빅데이터를 기반으로 Toyota만의 인프라 모델을 개발 중이며, 앞으로 AI Platform을 더 적극적으로 사용할 예정입니다. 현재 개발팀에서 제조 현장의 업무 기록과 의견을 수집 중이며, 곧 생성형 AI를 활용하게 될 것이라고 예상합니다. 예를 들어, 팀에서는 그동안 데이터 부족으로 어려움이 있었던 생산 준비 단계에서 머신러닝을 테스트하기 위한 이미지를 만드는 데 AI의 사용을 고려하고 있습니다. 이에 더해, 개발자 환경 개선을 위해 Gemini Code Assist를 사용하거나 기존 지식을 검색 증강 생성(RAG)으로 변환하고 추천 기능을 구현할 수 있도록 Gemini를 사용하는 방법도 고려하고 있습니다. 2024년 3월에는 Google Cloud의 Tech Acceleration 프로그램(TAP)에 참여하고 Cloud Workstations를 구현했습니다. 이는 관리형 서비스를 사용해 효율성을 개선하고, 워크로드를 줄이고, 더 편리한 업무 환경을 조성하고자 하는 Toyota의 목표를 달성하기 위한 것이기도 합니다.

https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_6axOxMF.max-800x800.jpg

제조 현장에서 주도한 이 프로젝트를 통해 Toyota는 누구나 손쉽게 AI 학습 모델을 만들고 활용할 수 있는 '제조의 새로운 방식'을 확립했으며, 회사의 비즈니스 영향력이 크게 증가했습니다. 이 모든 것은 Google Cloud의 최첨단 기술과 서비스 덕분에 가능했습니다.

생산 라인의 '지도카'(자동화) 및 '적시성' 원칙과 마찬가지로, AI Platform은 이제 Toyota의 제조 운영에 필수적인 요소로 자리 잡았습니다. Toyota는 Google Cloud를 활용해 더 좋은 자동차를 만들기 위한 노력을 계속해 나갈 것입니다.

게시 위치