콘텐츠로 이동하기
Transform with Google Cloud

모델의 기반: AI accelerate를 인프라부터 시작해야 하는 이유

2023년 6월 26일
https://storage.googleapis.com/gweb-cloudblog-publish/images/Foundations_for_models.max-2000x2000.jpg
George Elissaios

VP, Product Management, Compute Engine & AI Infrastructure

Mikhail Chrestkha

Applied AI Solutions Manager

프로젝트에 꼭 맞는 인프라를 연결하려면 AI 목표와 하드웨어 사용, 성능에 맞춰 조정해야 합니다.

오늘날, 조직은 여러 의사 결정에 직면하며 비즈니스를 운영하기 힘든 시기를 보내고 있습니다. 더 적은 리소스로 더 많은 일을 하기 위한 긴축 정책에 대한 논의, 프로젝트 간소화, AI 및 머신러닝을 통한 직원 생산성 향상 등 어렵고 때로는 상충하는 의사 결정을 내려야 합니다. 

이러한 모든 상황을 이끄는 요소 중 하나는 웹과 소셜 상호작용, 휴대기기, 카메라와 IoT 센서 등으로부터 수집할 수 있는 엄청난 양의 데이터입니다. 광범위한 정보가 한꺼번에 밀려오는 것처럼 느껴질 정도입니다. 또한 각 데이터 포인트는 강력해서,  인사이트를 제공하고, 워크플로를 자동화하고, 브랜드 호감도를 개선하기 위해 개인화된 고객 경험을 생성할 수 있습니다. 

그러나 모든 작용에는 그에 상응하는 반작용이 있습니다. 데이터의 경우 그 방대한 양은 힘이 되는 것 못지않게 부담이 될 수도 있습니다. 데이터를 획득하는 것과 활용하는 것은 별개의 문제입니다. 인프라가 따라오지 못한다면 어떤 모델을 사용해도 차이를 만들어 낼 수 없습니다.

데이터 세트의 크기가 계속 커지면서 기회와 도전과제도 함께 커집니다. 예를 들어 생성형 AI 모델의 배포와 관련하여 지금까지 드러난 가장 큰 장애물 중 하나는 모든 것을 처리하는 데 필요한 컴퓨팅 성능의 규모입니다. 더 전통적인 형태의 데이터 수집, 분석, 비즈니스 인텔리전스도 마찬가지입니다. 간단히 말해 AI와 ML 프로젝트의 혁신과 최적화, 배포를 위해서는 더 많은 컴퓨팅 리소스가 필요합니다. 

그래서 많은 조직이 AI에 맞추기 위해서는 인프라에 더 많은 리소스가 필요하다는 사실을 인식하고 있습니다. AI의 시대에 성공하기 위해서는 다양한 형식의 새로운 IT 인프라만 필요한 것이 아니라(GPU와 TPU를 구별하실 수 있나요?) 조직의 새로운 사고방식도 필요합니다.

인프라에 대한 투자가 곧 AI에 대한 투자입니다

대규모 모델 AI 분석 작업에서 속도와 성능은 비정형 빅데이터를 활용하고자 하는 조직에 고유한 차별화 요소가 될 수 있습니다. 새 하드웨어에 투자하지 않거나 기존 AI 인프라를 조정하지 못하면 모델 학습이 완전한 성숙 단계에 이르는 데 몇 개월, 몇 분기 심지어 몇 년이 걸릴 수 있습니다. 

AI 인프라에 액세스하는 방법은 여러 가지입니다. 자체적으로 구축할 수도 있고, Google Cloud와 같은 클라우드 제공업체와 협력하거나 API를 사용하여 대규모 외부 모델에 데이터를 연결하는 방법 등이 있습니다. AI 인프라에 액세스하는 위치에 상관없이, 일단 모델을 구축한 후 이를 비즈니스 의사 결정 프로세스에 포함하려면 지속적으로 분석하고 소비 가능한 콘텐츠를 생성하기 위해 막대한 양의 컴퓨팅 성능이 필요할 수 있습니다. 

대규모 모델을 배포하고 끊임없이 최적화하는 작업은 헌신적인 엔지니어팀에도 큰 부담이 될 수 있습니다. 그러나 페타바이트 규모의 데이터를 분석하고 비즈니스 인사이트 또는 고유한 콘텐츠를 생성하기 위해서는 꼭 필요합니다. 뛰어난 기술을 갖추고 높은 보수를 받는 엔지니어들로 구성된 데이터 및 AI팀이 모델의 결과를 몇 시간 또는 며칠을 기다리는 상황이 발생할 수 있습니다. 결과를 테스트하고 반복하고 다시 테스트해야 하는 데이터 및 AI팀은 하드웨어로 인해 발생하는 이러한 지연 때문에 지칠 수 있습니다. 이는 AI와 머신러닝이 가진 강력한 이점 중 하나인 민첩성에 역행합니다. 뛰어난 소비자 경험을 위해서는 빠른 실험과 맞춤설정이 필수입니다.

대규모 모델을 배포하고 끊임없이 최적화하는 작업은 헌신적인 엔지니어팀에도 큰 부담이 될 수 있습니다. 잘못된 인프라로 엔지니어팀의 시간을 낭비하지 마세요.

예를 들어  Vodafone은 경험을 강화하기 위해 AI에 최적화된 인프라를 배포했으며 이를 통해 기술팀은 AI 모델 생성부터 배포까지 소요되는 시간을 최대 80% 단축했습니다. 특히 변화가 심한 모바일 및 통신 서비스 시장에서 이러한 시간 절약은 더 우수한 경험을 제공하는 데 있어 매우 중요한 역할을 할 수 있습니다.

최적화된 인프라는 AI 프로젝트를 위한 리소스를 계획할 때 결정적인 요소가 될 수 있습니다. 최근 여러 연구를 보면 일반적인 하드웨어와 AI에 최적화된 하드웨어의 성능은 최대 2배에 이를 정도로 차이가 큽니다. 이는 인프라 결정이 기업의 전반적인 혁신 어젠다에 중요한 이유를 보여줍니다..

성공적인 AI 투자를 준비하기 위해서는 한 걸음 물러서서 다음의 세 가지 핵심을 염두에 두고 접근해야 합니다.

  1. AI 목표를 명확히 정의
  2. 소비 패턴 이해  
  3. 성능 요구사항 이해

그러면 자체 AI 시스템 스택을 구축할지, 아니면 프로젝트의 목적에 맞게 구축된 인프라를 배포할 수 있는 Google Cloud와 같은 클라우드 제공업체와 협력할지를 결정할 수 있습니다.

AI 목표를 명확히 정의하세요

AI 프로젝트를 구축하고 배포하기 위해서는 AI가 어떤 일을 할지에 대한 정확한 이해가 필요합니다. 

프로젝트를 철두철미하게 이해하면 이후 많은 시간과 비용이 들 수 있는 잠재적인 프로비저닝 또는 확장 문제를 더욱 쉽게 완화할 수 있습니다. 조정을 추구하면 팀 간의 협업에도 유익하며, 이해관계자 간의 조정과 작업의 최종적인 목표를 보장하는 데 도움이 됩니다.  또한 이해관계자와 목표가 일치하도록 하여 팀 공동작업을 개선하는 데도 이를 사용해야 합니다. 

조직이 AI 프로젝트를 정의하면서 고려할 수 있는 목표는 다음과 같습니다.

  • AI 담당자의 생산성을 높여 더 빠르게 실험하고 배포  
  • 기존 비즈니스 프로세스 또는 소비자 제품의 최종 사용자 경험 개선
  • 새로운 AI 기반 제품 및 기능을 출시하기 위한 TTM(time to market) 단축

팀은 이러한 항목을 고려하고 나면 인프라 니즈, 그리고 그 인프라가 당면한 작업에 맞는지 여부를 더 정확히 파악할 수 있습니다.

소비 패턴을 이해하세요

인프라 니즈를 판단할 때, 소비 패턴에 대한 이해 여부에 따라 성공적으로 배포될 수도 있고, 비용이 낭비될 수도 있습니다. 밀려드는 데이터 세트를 처리하기 위해 현재 사내 팀에 추가 인력이 필요하거나, AI 시스템 최적화를 전문으로 하는 엔지니어가 필요할 수 있습니다. 

니즈를 사전에 예측하면, 맞춤설정이 어렵고 가치가 거의 없으며 문제도 해결하지 못하는 유연하지 않은 모델을 떠안게 되거나 요구사항을 충족하지 못하는 인프라를 선택할 위험을 피할 수 있습니다.

https://storage.googleapis.com/gweb-cloudblog-publish/images/Google_TPUs.max-1200x1200.jpg
Google의 TPU와 같은 특화된 칩은 특정 AI 프로젝트의 속도를 대폭 높이고 다른 하드웨어의 비용 절감 효과도 제공할 수 있습니다.

팀은 대상 사용자를 명확하게 이해해야 합니다. AI 연구원, ML 엔지니어, 데이터 과학자, 소프트웨어 개발자 또는 이들의 조합일 수도 있습니다.  그런 다음 모델 크기, 속도, 세부 사항 등 이들에게 가장 큰 니즈가 무엇인지에 따라 적절한 AI 기술 스택 레이어를 선택해 구축하고 유지 관리해야 합니다. 

이를 위해 예를 들어 Kubernetes를 통해 직접 제어하는 특화된 하드웨어를 활용하여 자체 애플리케이션 집합을 구축할 수 있습니다. 또는 Vertex AI와 같은 관리형 머신러닝 플랫폼을 통해 맞춤설정 범위는 좁지만 해야 할 일도 적은 관리형 플랫폼을 도입할 수도 있습니다. 더 간편한 방법은 가장 폭넓은 액세스 및 제어 역량을 제공하는 API 집합을 통해 최신 AI 모델을 활용하는 것입니다.

성능 요구사항을 파악하세요

경쟁사의 프로젝트든 한 조직 내의 프로젝트든 프로젝트는 저마다 다릅니다. 모든 기업은 자체 브랜드 특성 또는 기술 자료에 맞게 모델을 학습시키고 최신 고객 데이터를 기반으로 추천을 맞춤설정하고자 합니다. 따라서 성능 요구사항을 이해하는 것은 프로젝트의 배포뿐만 아니라 지속적인 성공을 위해서도 매우 중요합니다.

비용을 완전히 파악하기 위해서는 프로젝트에 적합한 하드웨어와 소프트웨어를 결정해야 합니다. 대규모 모델의 학습, 조정, 반복, 배포는 모델과 애플리케이션에 따라 달라질 수 있기 때문입니다. 표준 CPU, 고급 그래픽 처리 장치(GPU), AI에 특화된 Google의 Tensor Processing Unit(TPU)와 같은 프로세서에는 모두 장단점이 있습니다. 필요한 요소에 대한 결정은 AI 프로젝트의 지속적인 비용, 런타임, 성능 역량에 영향을 미칠 수 있습니다. 

마지막으로, 인프라 투자 효과를 최대한으로 높이려면 기본 하드웨어에 최적화된 소프트웨어를 파악하는 것이 중요합니다. 포괄적으로 최적화된 스택은 컴퓨팅 및 성능을 보존하면서도 모델의 산출량을 최대화합니다

AI에 올인하세요

오늘날 모든 산업의 조직은 새로운 생성형 AI 역량을 포함한 AI를 비즈니스 기능에 통합할 방안을 모색하고 있습니다. 그러나 그 비즈니스 기회는 AI 시스템이 각 프로젝트에 따라 올바르게 학습, 최적화, 구성된 경우에만 얻을 수 있습니다. 

한 걸음 물러서서 프로젝트를 처음부터 끝까지 점검하고 모든 비용을 고려하는 과정을 거치지 않으면 가장 간단한 프로젝트조차 예산 초과로 이어질 수 있습니다. 기업은 AI에 최적화된 인프라의 유무에 따라 데이터를 완전히 활용할 수 있는 성공적인 모델을 얻을 수도 있고, 기술 부채의 깊은 함정에 빠질 수도 있습니다.

게시 위치