Well-Architected Framework: AI 및 ML 관점

Last reviewed 2025-02-14 UTC

Google Cloud Well-Architected Framework의 이 문서에서는 운영, 보안, 안정성, 비용, 성능 목표를 충족하는 AI 및 ML 워크로드를 설계, 빌드, 관리하는 데 도움이 되는 원칙과 권장사항을 설명합니다. Google Cloud

이 문서의 대상 독자는 Google Cloud에서 AI 및 ML 워크로드를 설계, 빌드, 배포, 유지관리하는 의사결정권자, 설계자, 관리자, 개발자, 운영자입니다.

다음 페이지에서는 설계 품질 프레임워크의 각 요소에 관한 AI 및 ML과 관련된 원칙 및 권장사항을 설명합니다.

참여자

저자:

기타 참여자:

AI 및 ML 관점: 운영 우수성

Well-Architected Framework: AI and ML perspective의 이 문서에서는 Google Cloud에서 강력한 AI 및 ML 시스템을 빌드하고 운영하는 데 도움이 되는 원칙 및 권장사항을 간략히 설명합니다. 이러한 권장사항을 따르면 관측 가능성, 자동화, 확장성과 같은 기본적인 요소를 설정할 수 있습니다. 이 문서의 권장사항은 Google Cloud Well-Architected Framework의 운영 우수성 요소와 일치합니다.

AI 및 ML 도메인 내의 운영 우수성은 조직의 전략적 목표를 지원하는 복잡한 AI 및 ML 시스템과 파이프라인을 원활하게 배포, 관리, 거버넌스하는 능력입니다. 운영 우수성을 통해 변화에 효율적으로 대응하고, 운영 복잡성을 줄이며, 운영이 비즈니스 목표와 계속 조화를 이루도록 할 수 있습니다.

모델 개발을 위한 견고한 기반 구축

문제 정의에서 배포에 이르기까지 모델 개발을 간소화할 수 있는 강력한 기반을 구축하세요. 이러한 기반을 통해 AI 솔루션을 안정적이고 효율적인 구성요소와 선택사항을 기반으로 구축할 수 있습니다. 이러한 기반을 마련하면 변경사항과 개선사항을 쉽고 빠르게 출시할 수 있습니다.

다음 권장사항을 고려하세요.

  • AI 시스템이 해결하는 문제와 원하는 결과를 정의합니다.
  • 모델을 학습하고 평가하는 데 필요한 관련 데이터를 식별하고 수집합니다. 그런 다음 원시 데이터를 정리하고 전처리합니다. 데이터 품질 및 무결성을 보장하기 위해 데이터 검증 검사를 구현합니다.
  • 작업에 적합한 ML 접근 방식을 선택합니다. 모델의 구조와 매개변수를 설계할 때는 모델의 복잡도와 계산 요구사항을 고려하세요.
  • 코드, 모델, 데이터에 버전 제어 시스템을 채택합니다.

모델 개발 수명 주기 자동화

데이터 준비 및 학습부터 배포 및 모니터링에 이르기까지 자동화를 사용하면 운영의 품질과 효율성을 개선할 수 있습니다. 자동화를 사용하면 원활하고 반복 가능하며 오류가 없는 모델 개발과 배포가 가능합니다. 자동화는 수동 개입을 최소화하고 출시 주기를 가속화하며 환경 전반에서 일관성을 보장합니다.

다음 권장사항을 고려하세요.

  • 관리형 파이프라인 조정 시스템을 사용하여 ML 워크플로를 조정하고 자동화합니다. 파이프라인은 개발 수명 주기의 주요 단계인 준비, 학습, 배포, 평가를 처리해야 합니다.
  • 모델 개발 수명 주기에 CI/CD 파이프라인을 구현합니다. 이러한 파이프라인은 모델의 빌드, 테스트, 배포를 자동화해야 합니다. 파이프라인에는 필요에 따라 새 데이터로 모델을 다시 학습시키는 연속 학습도 포함되어야 합니다.
  • 안전하고 통제된 모델 출시를 위해 카나리아 배포 또는 A/B 테스트와 같은 단계적 출시 접근 방식을 구현합니다.

관측 가능성 구현

관측 가능성을 구현하면 모델 성능, 데이터 드리프트, 시스템 상태에 대한 심층적인 통계를 얻을 수 있습니다. 지속적인 모니터링, 알림, 로깅 메커니즘을 구현하여 문제를 사전에 파악하고, 적시에 대응을 트리거하며, 운영 연속성을 보장합니다.

다음 권장사항을 고려하세요.

  • 모델에 영구적이고 자동화된 성능 모니터링을 구현합니다. 배포 후 모델을 지속적으로 평가하는 데 측정항목과 성공 기준을 사용합니다.
  • 배포 엔드포인트와 인프라를 모니터링하여 서비스 가용성을 보장합니다.
  • 비즈니스별 기준점 및 이상치를 기반으로 맞춤 알림을 설정하여 문제를 적시에 식별하고 해결할 수 있습니다.
  • Explainable AI 기법을 사용하여 모델 출력을 이해하고 해석합니다.

운영 우수성 문화 구축

운영 우수성은 사람, 문화, 전문적인 관행을 기반으로 구축됩니다. 팀과 비즈니스의 성공은 조직이 AI 기능을 안정적이고 신속하게 개발할 수 있는 방법론을 얼마나 효과적으로 구현하는지에 달려 있습니다.

다음 권장사항을 고려하세요.

  • 핵심 개발 방법론으로 자동화 및 표준화를 장려합니다. MLOps 기법을 사용하여 워크플로를 간소화하고 ML 수명 주기를 효율적으로 관리하세요. 작업을 자동화하여 혁신에 더 많은 시간을 할애하고 프로세스를 표준화하여 일관성과 더 쉬운 문제 해결을 지원하세요.
  • 지속적인 학습과 개선에 우선순위를 둡니다. 팀원이 기술을 향상하고 AI 및 ML의 최신 발전사항을 파악하는 데 사용할 수 있는 학습 기회를 홍보합니다. 실험을 장려하고 정기적으로 회고를 실시하여 개선이 필요한 영역을 파악합니다.
  • 책임감과 소유권의 문화를 조성하세요. 모든 사용자가 자신의 기여도를 이해할 수 있도록 명확한 역할을 정의합니다. 팀이 투명한 측정항목을 사용하여 한도 내에서 결정을 내리고 진행 상황을 추적할 수 있도록 지원하세요.
  • AI 윤리와 안전을 문화에 녹여야 합니다. ML 수명 주기의 모든 단계에 윤리적 고려사항을 통합하여 책임감 있는 시스템에 우선순위를 둡니다. 명확한 윤리 원칙을 수립하고 윤리 관련 문제에 대해 열린 토론을 장려합니다.

확장성을 고려한 설계

증가하는 데이터 양과 사용자 수요를 처리할 수 있도록 AI 솔루션을 설계하세요. 확장 가능한 인프라를 사용하여 프로젝트가 확장될 때 모델이 최적으로 적응하고 실행할 수 있도록 합니다.

다음 권장사항을 고려하세요.

  • 용량 및 할당량을 계획합니다. 향후 성장을 예상하고 그에 따라 인프라 용량과 리소스 할당량을 계획합니다.
  • 최대 이벤트에 대비합니다. 시스템이 피크 이벤트 중에 트래픽 또는 워크로드가 갑자기 급증하는 경우 이를 처리할 수 있는지 확인합니다.
  • 프로덕션용 AI 애플리케이션을 확장합니다. 워크로드 증가를 수용할 수 있도록 수평 확장을 설계합니다. Vertex AI의 Ray와 같은 프레임워크를 사용하여 여러 머신에서 태스크를 병렬화합니다.
  • 적절한 경우 관리형 서비스를 사용합니다. 수동 개입의 운영 오버헤드와 복잡성을 최소화하면서 확장하는 데 도움이 되는 서비스를 사용하세요.

참여자

저자:

기타 참여자:

AI 및 ML 관점: 보안

Well-Architected Framework: AI and ML perspective의 이 문서에서는 AI 및 ML 배포가 조직의 보안 및 규정 준수 요구사항을 충족하도록 하는 원칙 및 권장사항을 간략히 설명합니다. 이 문서의 권장사항은 Google Cloud Well-Architected Framework의 보안 분야에 따릅니다.

AI 및 ML 워크로드의 안전한 배포는 특히 엔터프라이즈 환경에서 중요한 요구사항입니다. 이 요구사항을 충족하려면 AI 및 ML 솔루션의 초기 개념화에서 시작하여 개발, 배포, 지속적인 운영으로 확장되는 전체적인 보안 접근 방식을 채택해야 합니다. Google Cloud 은 AI 및 ML 워크로드의 보안을 강화하도록 설계된 강력한 도구와 서비스를 제공합니다.

명확한 목표 및 요구사항 정의

개발 후에 제어 기능을 추가하는 것보다 설계 및 개발 프로세스 초기에 필요한 보안 및 규정 준수 제어 기능을 통합하는 것이 더 쉽습니다. 설계 및 개발 프로세스 시작부터 특정 위험 환경과 특정 비즈니스 우선순위에 적합한 결정을 내립니다.

다음 권장사항을 고려하세요.

  • 잠재적인 공격 벡터를 식별하고 처음부터 보안 및 규정 준수 관점을 채택하세요. AI 시스템을 설계하고 발전시킬 때는 공격 노출 영역, 잠재적 위험, 발생할 수 있는 의무를 추적합니다.
  • AI 및 ML 보안 노력을 비즈니스 목표에 맞추고 보안이 전반적인 전략의 필수 요소가 되도록 하세요. 보안 선택사항이 주요 비즈니스 목표에 미치는 영향을 이해합니다.

데이터를 안전하게 보호하고 손실 또는 오조작을 방지합니다.

데이터는 안전하게 보호해야 하는 가치 있고 민감한 애셋입니다. 데이터 보안은 사용자 신뢰를 유지하고, 비즈니스 목표를 지원하며, 규정 준수 요구사항을 충족하는 데 도움이 됩니다.

다음 권장사항을 고려하세요.

  • 비즈니스 목표에 꼭 필요한 것이 아닌 데이터는 수집, 보관 또는 사용하지 마세요. 가능하면 합성 데이터 또는 완전히 익명처리된 데이터를 사용하세요.
  • 데이터 수집, 저장, 변환을 모니터링합니다. 모든 데이터 액세스 및 조작 활동에 관한 로그를 유지합니다. 로그를 사용하면 데이터 액세스를 감사하고, 무단 액세스 시도를 감지하고, 원치 않는 액세스를 방지할 수 있습니다.
  • 사용자 역할에 따라 다양한 액세스 수준 (예: 액세스 불가, 읽기 전용 또는 쓰기)을 구현합니다. 최소 권한의 원칙에 따라 권한이 할당되었는지 확인합니다. 사용자는 역할 활동을 수행하는 데 필요한 최소한의 권한만 보유해야 합니다.
  • 암호화, 보안 경계, 데이터 이동 제한과 같은 조치를 구현합니다. 이러한 조치는 데이터 무단 반출 및 데이터 손실을 방지하는 데 도움이 됩니다.
  • ML 학습 시스템의 데이터 포이즈닝을 방지합니다.

조작으로부터 AI 파이프라인을 안전하고 강력하게 보호

AI 및 ML 코드와 코드 정의 파이프라인은 중요한 애셋입니다. 보호되지 않은 코드는 조작될 수 있으며, 이로 인해 데이터 유출, 규정 준수 실패, 중요한 비즈니스 활동 중단이 발생할 수 있습니다. AI 및 ML 코드를 안전하게 보호하면 모델과 모델 출력의 무결성과 가치를 보장할 수 있습니다.

다음 권장사항을 고려하세요.

  • 모델 개발 중에 종속 항목 관리, 입력 유효성 검사 및 정리와 같은 안전한 코딩 관행을 사용하여 취약점을 방지합니다.
  • 파일, 모델 가중치, 배포 사양과 같은 파이프라인 코드와 모델 아티팩트를 무단 액세스로부터 보호합니다. 사용자 역할 및 필요에 따라 각 아티팩트에 대해 서로 다른 액세스 수준을 구현합니다.
  • 애셋 및 파이프라인 실행의 계보 및 추적을 적용합니다. 이러한 시정 조치는 규정 준수 요구사항을 충족하고 프로덕션 시스템을 손상시키지 않는 데 도움이 됩니다.

보안 도구 및 아티팩트를 사용하여 보안 시스템에 배포

코드와 모델이 환경에 배포된 도구와 아티팩트에 대한 보안 보증이 포함된 강력한 액세스 제어 시스템이 있는 안전한 환경에서 실행되는지 확인합니다.

다음 권장사항을 고려하세요.

  • 적절한 액세스 제어와 무단 사용 또는 조작에 대한 보호 기능이 있는 안전한 환경에서 모델을 학습하고 배포하세요.
  • 모델 및 소프트웨어 패키지와 같은 AI 관련 아티팩트에 표준 SLSA (소프트웨어 아티팩트에 대한 공급망 등급) 가이드라인을 따르세요.
  • AI 워크로드용으로 특별히 설계된 검증된 사전 빌드된 컨테이너 이미지를 사용하는 것이 좋습니다.

입력 보호 및 모니터링

AI 시스템은 예측을 하거나, 콘텐츠를 생성하거나, 작업을 자동화하기 위해 입력이 필요합니다. 일부 입력은 위험을 초래하거나 감지 및 정리해야 하는 공격 벡터로 사용될 수 있습니다. 잠재적으로 악의적인 입력을 조기에 감지하면 AI 시스템을 안전하게 유지하고 의도한 대로 작동하도록 할 수 있습니다.

다음 권장사항을 고려하세요.

  • 생성형 AI 시스템의 프롬프트를 개발하고 관리하기 위한 보안 관행을 구현하고 프롬프트에서 유해한 의도가 있는지 선별합니다.
  • 예측 또는 생성형 시스템에 대한 입력을 모니터링하여 과부하된 엔드포인트나 시스템이 처리하도록 설계되지 않은 프롬프트와 같은 문제를 방지합니다.
  • 배포된 시스템의 의도한 사용자만 사용할 수 있도록 합니다.

결과 모니터링, 평가, 대응 준비

AI 시스템은 인간의 의사 결정을 보완, 최적화 또는 자동화하는 출력을 생성하므로 가치를 제공합니다. AI 시스템과 애플리케이션의 무결성과 신뢰성을 유지하려면 출력이 안전하고 예상 매개변수 내에 있는지 확인해야 합니다. 또한 사고에 대응할 계획도 필요합니다.

다음 권장사항을 고려하세요.

  • 프로덕션에서 AI 및 ML 모델의 출력을 모니터링하고 성능, 보안, 규정 준수 문제를 식별합니다.
  • 예측 모델에서 범위를 벗어난 생성형 응답이나 극단적인 출력을 식별하는 등 강력한 측정항목과 보안 조치를 구현하여 모델 성능을 평가합니다. 모델 성능에 대한 사용자 의견을 수집합니다.
  • 잠재적인 문제를 해결하기 위해 강력한 알림 및 이슈 대응 절차를 구현합니다.

참여자

저자:

기타 참여자:

AI 및 ML 관점: 안정성

Well-Architected Framework: AI and ML perspective의 이 문서에서는 Google Cloud에서 안정적인 AI 및 ML 시스템을 설계하고 운영하기 위한 원칙 및 권장사항을 간략히 설명합니다. 이 섹션에서는 고급 신뢰성 관행과 관측 가능성을 아키텍처 블루프린트에 통합하는 방법을 살펴봅니다. 이 문서의 권장사항은 Google Cloud Well-Architected Framework의 안정성 분야에 따릅니다.

빠르게 변화하는 AI 및 ML 환경에서 고객 만족을 보장하고 비즈니스 목표를 달성하려면 안정적인 시스템이 필수적입니다. 예측 ML과 생성형 AI의 고유한 요구사항을 충족할 수 있도록 강력하고 안정적이며 적응 가능한 AI 및 ML 시스템이 필요합니다. 개발에서 배포 및 지속적인 개선에 이르기까지 MLOps의 복잡성을 처리하려면 안정성 우선 접근 방식을 사용해야 합니다. Google Cloud 는 사이트 안정성 엔지니어링 (SRE) 원칙에 부합하며 안정적인 AI 및 ML 시스템을 위한 강력한 기반을 제공하는 특수 목적용 AI 인프라를 제공합니다.

확장 가능하고 가용성이 높은 인프라를 보장합니다.

확장성과 가용성을 고려한 아키텍처를 설계하면 애플리케이션이 서비스 중단이나 성능 저하 없이 다양한 수준의 수요를 처리할 수 있습니다. 즉, 인프라가 다운되거나 트래픽이 매우 많은 경우에도 사용자가 AI 서비스를 계속 사용할 수 있습니다.

다음 권장사항을 고려하세요.

  • 수요 변동을 처리할 수 있는 자동 및 동적 확장 기능으로 AI 시스템을 설계하세요. 이렇게 하면 트래픽이 급증하는 경우에도 최적의 성능을 보장할 수 있습니다.
  • 부하 테스트 및 성능 모니터링을 통해 리소스를 사전에 관리하고 향후 요구사항을 예상합니다. 이전 데이터와 예측 분석을 사용하여 리소스 할당에 관해 정보에 입각한 결정을 내립니다.
  • Google Cloud 에서 다중 영역 및 멀티 리전 배포 아키텍처를 채택하고 중복 및 복제를 구현하여 고가용성 및 내결함성을 설계합니다.
  • 수신 트래픽을 AI 및 ML 서비스와 엔드포인트의 여러 인스턴스에 분산합니다. 부하 분산은 단일 인스턴스의 과부하를 방지하고 일관된 성능과 가용성을 보장하는 데 도움이 됩니다.

모듈식 및 느슨하게 결합된 아키텍처 사용

AI 시스템이 개별 구성요소의 장애에 회복력이 있도록 하려면 모듈식 아키텍처를 사용하세요. 예를 들어 데이터 처리 구성요소와 데이터 검증 구성요소를 별도의 모듈로 설계합니다. 특정 구성요소에 오류가 발생하면 모듈식 아키텍처를 사용하면 다운타임을 최소화하고 팀에서 수정사항을 더 빠르게 개발하고 배포할 수 있습니다.

다음 권장사항을 고려하세요.

  • AI 및 ML 시스템을 작은 독립형 모듈 또는 구성요소로 분리합니다. 이 접근 방식을 사용하면 코드 재사용성을 높이고 테스트 및 유지보수를 간소화하며 개별 구성요소를 독립적으로 개발하고 배포할 수 있습니다.
  • 잘 정의된 인터페이스로 느슨하게 결합된 모듈을 설계합니다. 이 접근 방식은 종속 항목을 최소화하며 전체 시스템에 영향을 주지 않고도 독립적으로 업데이트하고 변경할 수 있습니다.
  • 단계적 성능 저하를 계획합니다. 구성요소가 실패하면 시스템의 다른 부분이 적절한 수준의 기능을 계속 제공해야 합니다.
  • API를 사용하여 모듈 간에 명확한 경계를 만들고 모듈 수준의 구현 세부정보를 숨깁니다. 이 접근 방식을 사용하면 시스템의 다른 부분과의 상호작용에 영향을 주지 않고 개별 구성요소를 업데이트하거나 교체할 수 있습니다.

자동화된 MLOps 플랫폼 빌드

자동화된 MLOps 플랫폼을 사용하면 모델 수명 주기의 단계와 출력이 더 안정적입니다. 일관성, 느슨한 결합, 모듈성을 장려하고 작업과 인프라를 코드로 표현하면 취약한 수동 단계를 삭제하고 더 강력하고 안정적인 AI 및 ML 시스템을 유지할 수 있습니다.

다음 권장사항을 고려하세요.

  • 데이터 준비 및 검증부터 모델 학습, 평가, 배포, 모니터링에 이르기까지 모델 개발 수명 주기를 자동화합니다.
  • 코드형 인프라 (IaC)를 관리합니다. 이 접근 방식을 사용하면 효율적인 버전 관리, 필요한 경우 빠른 롤백, 반복 가능한 배포가 가능합니다.
  • 모델이 관련 데이터에서 예상대로 작동하는지 확인합니다. 모델의 성능 모니터링을 자동화하고 예상치 못한 출력에 적절한 알림을 빌드합니다.
  • AI 및 ML 파이프라인의 입력과 출력을 검증합니다. 예를 들어 데이터, 구성, 명령줄 인수, 파일, 예측을 검사합니다. 예상치 못한 값 또는 허용되지 않는 값에 대한 알림을 구성합니다.
  • 모델 엔드포인트에 관리형 버전 제어 전략을 채택합니다. 이러한 전략을 사용하면 문제가 발생할 때 증분 출시와 빠른 복구가 가능합니다.

데이터 및 모델 거버넌스를 통해 신뢰 및 제어 유지

AI 및 ML 시스템의 신뢰성은 데이터와 모델의 신뢰 및 거버넌스 기능에 따라 달라집니다. AI 출력이 조용히 기대치를 충족하지 못할 수 있습니다. 예를 들어 출력이 형식적으로 일관성이 있지만 잘못되었거나 원치 않을 수 있습니다. 추적 가능성과 강력한 거버넌스를 구현하면 출력이 안정적이고 신뢰할 수 있는지 확인할 수 있습니다.

다음 권장사항을 고려하세요.

  • 데이터 및 모델 카탈로그를 사용하여 애셋을 효과적으로 추적하고 관리하세요. 추적 및 감사를 용이하게 하려면 수명 주기 전반에서 데이터 및 모델 버전에 관한 포괄적인 기록을 유지하세요.
  • 민감한 정보와 모델을 보호하기 위해 엄격한 액세스 제어 및 감사 추적을 구현합니다.
  • 특히 생성형 AI 애플리케이션에서 AI의 편향이라는 중요한 문제를 해결합니다. 신뢰를 쌓으려면 모델 출력의 투명성과 설명 가능성을 높이세요.
  • 기능 통계 생성을 자동화하고 이상 감지를 구현하여 데이터 문제를 사전에 식별합니다. 모델의 안정성을 보장하려면 데이터 분포 변화의 영향을 감지하고 완화하는 메커니즘을 설정합니다.

전체적인 AI 및 ML 관측 가능성 및 안정성 관행 구현

AI 운영을 지속적으로 개선하려면 의미 있는 안정성 목표를 정의하고 진행 상황을 측정해야 합니다. 관측 가능성은 안정적인 시스템의 기본 요소입니다. 관측 가능성을 사용하면 진행 중인 작업과 중요한 이벤트를 관리할 수 있습니다. 잘 구현된 관찰 가능성은 사용자를 위한 안정적인 서비스를 구축하고 유지하는 데 도움이 됩니다.

다음 권장사항을 고려하세요.

  • 프로세서 (CPU, GPU, TPU) 및 메모리 사용량, 네트워크 지연 시간, 디스크 사용량과 같은 기타 리소스의 인프라 측정항목을 추적합니다. 부하 테스트 및 성능 모니터링을 실행합니다. 모니터링의 테스트 결과와 측정항목을 사용하여 AI 및 ML 시스템의 확장과 용량을 관리합니다.
  • 안정성 목표를 설정하고 애플리케이션 측정항목을 추적합니다. 빌드하는 AI 애플리케이션의 처리량 및 지연 시간과 같은 측정항목을 측정합니다. 애플리케이션 및 노출된 엔드포인트의 사용 패턴을 모니터링합니다.
  • 모델 신뢰성을 평가하기 위해 정확도 또는 안전 지표와 같은 모델별 측정항목을 설정합니다. 시간 경과에 따라 이러한 측정항목을 추적하여 드리프트 또는 성능 저하를 식별합니다. 효율적인 버전 제어 및 자동화를 위해 모니터링 구성을 코드로 정의합니다.
  • 비즈니스 수준의 측정항목을 정의하고 추적하여 모델과 신뢰성이 비즈니스 성과에 미치는 영향을 파악합니다. AI 및 ML 서비스의 안정성을 측정하려면 SRE 접근 방식을 채택하고 서비스 수준 목표 (SLO)를 정의하는 것이 좋습니다.

참여자

저자:

기타 참여자:

AI 및 ML 관점: 비용 최적화

Well-Architected Framework: AI and ML perspective의 이 문서에서는 ML 수명 주기 전반에서 AI 시스템의 비용을 최적화하기 위한 원칙 및 권장사항을 간략히 설명합니다. 선제적이고 정보에 입각한 비용 관리 접근 방식을 채택하면 조직에서 AI 및 ML 시스템의 잠재력을 최대한 발휘하고 재무 규율을 유지할 수 있습니다. 이 문서의 권장사항은 Google Cloud Well-Architected Framework의 비용 최적화 요소에 따라 작성되었습니다.

AI 및 ML 시스템을 사용하면 데이터에서 유용한 통계와 예측 기능을 활용할 수 있습니다. 예를 들어 내부 프로세스의 불편을 줄이고 사용자 경험을 개선하며 고객에 대한 심층적인 통계를 얻을 수 있습니다. 클라우드는 AI 및 ML 워크로드에 대한 대규모 선행 투자 없이도 방대한 리소스와 빠른 가치 창출 시간을 제공합니다. 비즈니스 가치를 극대화하고 지출을 비즈니스 목표에 맞추려면 비용 요인을 파악하고, 비용을 사전에 최적화하고, 지출 관리를 설정하고, FinOps 관행을 채택해야 합니다.

비용 및 수익 정의 및 측정

Google Cloud에서 AI 및 ML 비용을 효과적으로 관리하려면 Google Cloud, 클라우드 리소스의 비용과 AI 및 ML 이니셔티브의 비즈니스 가치를 정의하고 측정해야 합니다. Google Cloud 는 비용을 세부적으로 추적하는 데 도움이 되는 포괄적인 결제 및 비용 관리 도구를 제공합니다. 측정할 수 있는 비즈니스 가치 측정항목에는 고객 만족도, 수익, 운영 비용이 포함됩니다. 비용과 비즈니스 가치에 관한 구체적인 측정항목을 설정하면 리소스 할당 및 최적화에 관해 정보에 입각한 결정을 내릴 수 있습니다.

다음 권장사항을 고려하세요.

  • AI 및 ML 프로젝트에 대한 명확한 비즈니스 목표와 핵심성과지표(KPI)를 수립합니다.
  • Google Cloud 에서 제공하는 결제 정보를 사용하여 특정 AI 및 ML 활동에 비용을 부과하는 데 도움이 되는 비용 모니터링 및 보고 프로세스를 구현합니다.
  • 대시보드, 알림, 보고 시스템을 설정하여 KPI에 따른 비용과 수익을 추적합니다.

리소스 할당 최적화

Google Cloud에서 AI 및 ML 워크로드의 비용 효율성을 달성하려면 리소스 할당을 최적화해야 합니다. 리소스 할당을 워크로드의 요구사항에 맞게 신중하게 조정하면 불필요한 비용을 피하고 AI 및 ML 시스템에 최적의 성능을 발휘하는 데 필요한 리소스를 제공할 수 있습니다.

다음 권장사항을 고려하세요.

  • 자동 확장을 사용하여 학습 및 추론을 위한 리소스를 동적으로 조정합니다.
  • 소규모 모델과 데이터로 시작합니다. 가능하다면 소규모로 가설을 테스트하여 비용을 절약하세요.
  • 실험을 통해 컴퓨팅 요구사항을 파악합니다. ML 요구사항에 따라 학습 및 제공에 사용되는 리소스의 크기를 조정합니다.
  • MLOps 관행을 채택하여 중복, 수동 프로세스, 비효율적인 리소스 할당을 줄입니다.

데이터 관리 및 거버넌스 관행 시행

효과적인 데이터 관리 및 거버넌스 관행은 비용 최적화에서 중요한 역할을 합니다. 잘 정리된 데이터는 조직에서 불필요한 중복을 방지하고, 고품질 데이터를 얻는 데 필요한 노력을 줄이며, 팀에서 데이터 세트를 재사용하도록 유도합니다. 데이터를 사전에 관리하면 스토리지 비용을 줄이고, 데이터 품질을 개선하고, ML 모델이 가장 관련성 높고 가치 있는 데이터를 기반으로 학습하고 작동하도록 할 수 있습니다.

다음 권장사항을 고려하세요.

  • 잘 정의된 데이터 거버넌스 프레임워크를 수립하고 채택합니다.
  • 데이터 처리 시점에 데이터 세트에 라벨과 관련 메타데이터를 적용합니다.
  • 조직 전체에서 데이터 세트를 검색하고 액세스할 수 있는지 확인합니다.
  • 가능한 경우 ML 수명 주기 전반에서 데이터 세트와 기능을 재사용할 수 있도록 합니다.

MLOps로 자동화 및 간소화

MLOps 관행을 채택하는 주요 이점은 기술 관점에서나 인력 활동 측면에서 비용을 절감할 수 있다는 것입니다. 자동화를 사용하면 ML 활동의 중복을 방지하고 데이터 과학자와 ML 엔지니어의 생산성을 개선할 수 있습니다.

다음 권장사항을 고려하세요.

  • 데이터 수집 및 처리 기술의 자동화 및 표준화 수준을 높여 개발 노력과 시간을 줄입니다.
  • 자동화된 학습 파이프라인을 개발하여 수동 개입의 필요성을 줄이고 엔지니어의 생산성을 높입니다. 준비된 데이터 세트 및 학습된 모델과 같은 기존 애셋을 파이프라인에서 재사용할 수 있는 메커니즘을 구현합니다.
  • Google Cloud 의 모델 평가 및 조정 서비스를 사용하여 반복 횟수를 줄여 모델 성능을 높입니다. 이를 통해 AI 및 ML팀은 더 짧은 시간에 더 많은 목표를 달성할 수 있습니다.

관리형 서비스 및 선행 학습된 모델 또는 기존 모델 사용

AI와 ML을 사용하여 비즈니스 목표를 달성하는 방법에는 여러 가지가 있습니다. 모델 선택 및 모델 개발에 점진적 접근 방식을 채택합니다. 이렇게 하면 매번 새로 시작할 때 발생하는 과도한 비용을 피할 수 있습니다. 비용을 관리하려면 ML 프레임워크, 관리형 서비스, 선행 학습된 모델을 사용하는 간단한 접근 방식부터 시작해 보세요.

다음 권장사항을 고려하세요.

  • 노트북 환경을 사용하여 탐색적이고 빠른 ML 실험을 지원합니다.
  • 기존 모델과 사전 학습된 모델을 시작점으로 사용하여 모델 선택 및 개발 프로세스를 가속화하세요.
  • 관리형 서비스를 사용하여 모델을 학습하거나 제공합니다. AutoML과 관리형 맞춤 모델 학습 서비스 모두 모델 학습 비용을 줄이는 데 도움이 될 수 있습니다. 관리형 서비스는 모델 제공 인프라의 비용을 줄이는 데도 도움이 될 수 있습니다.

비용 인식 및 지속적인 최적화 문화 조성

커뮤니케이션과 정기적인 검토를 장려하는 공동작업 환경을 조성합니다. 이 접근 방식을 사용하면 팀이 ML 수명 주기 전반에서 비용 절감 기회를 파악하고 구현할 수 있습니다.

다음 권장사항을 고려하세요.

  • ML 수명 주기 전반에서 FinOps 원칙을 채택합니다.
  • AI 및 ML 프로젝트의 모든 비용과 비즈니스 이점에 명확한 책임을 가진 소유자가 할당되어 있는지 확인합니다.

참여자

저자:

기타 참여자:

AI 및 ML 관점: 성능 최적화

Well-Architected Framework: AI and ML perspective의 이 문서에서는 Google Cloud에서 AI 및 ML 워크로드의 성능을 최적화하는 데 도움이 되는 원칙 및 권장사항을 개략적으로 설명합니다. 이 문서의 권장사항은 Google Cloud Well-Architected Framework의 성능 최적화 요소에 따라 작성되었습니다.

AI 및 ML 시스템을 통해 조직에 새로운 자동화 및 의사결정 기능을 구현할 수 있습니다. 이러한 시스템의 성능은 수익, 비용, 고객 만족도와 같은 비즈니스 요인에 직접적인 영향을 미칠 수 있습니다. AI 및 ML 시스템의 잠재력을 최대한 발휘하려면 비즈니스 목표와 기술 요구사항에 따라 성능을 최적화해야 합니다. 성능 최적화 프로세스에는 종종 특정 절충점이 포함됩니다. 예를 들어 필요한 성능을 제공하는 설계 선택사항으로 인해 비용이 더 많이 들 수 있습니다. 이 문서의 권장사항은 비용과 같은 다른 고려사항보다 성능을 우선시합니다.

AI 및 ML 성능을 최적화하려면 모델 아키텍처, 매개변수, 학습 전략과 같은 요소에 관해 결정을 내려야 합니다. 이러한 결정을 내릴 때는 AI 및 ML 시스템과 배포 환경의 전체 수명 주기를 고려하세요. 예를 들어 매우 큰 LLM은 대규모 학습 인프라에서 성능이 우수할 수 있지만, 매우 큰 모델은 휴대기기와 같이 용량이 제한된 환경에서는 성능이 좋지 않을 수 있습니다.

비즈니스 목표를 실적 목표로 전환

성능을 최적화하는 아키텍처 결정을 내리려면 명확한 비즈니스 목표를 설정하는 것으로 시작합니다. 비즈니스 목표와 우선순위를 지원하는 데 필요한 기술적 성능을 제공하는 AI 및 ML 시스템을 설계합니다. 기술팀은 실적 목표와 비즈니스 목표 간의 매핑을 이해해야 합니다.

다음 권장사항을 고려하세요.

  • 비즈니스 목표를 기술 요구사항으로 변환: AI 및 ML 시스템의 비즈니스 목표를 구체적인 기술적 성능 요구사항으로 변환하고 요구사항을 충족하지 못할 경우의 영향을 평가합니다. 예를 들어 고객 이탈을 예측하는 애플리케이션의 경우 ML 모델은 정확성, 재현율과 같은 표준 측정항목에서 우수한 성능을 발휘해야 하며 애플리케이션은 짧은 지연 시간과 같은 운영 요구사항을 충족해야 합니다.
  • 모델 수명 주기의 모든 단계에서 성능 모니터링: 모델 배포 후 실험 및 학습 중에 핵심성과지표 (KPI)를 모니터링하고 비즈니스 목표에서 벗어난 부분을 관찰합니다.
  • 재현 가능하고 표준화된 평가를 위해 평가 자동화: 실험 평가를 위한 표준화되고 비교 가능한 플랫폼과 방법론을 사용하면 엔지니어가 성능 개선 속도를 높일 수 있습니다.

빈번한 실험 실행 및 추적

혁신과 창의성을 실적 개선으로 전환하려면 실험을 지원하는 문화와 플랫폼이 필요합니다. AI 및 ML 기술은 지속적으로 빠르게 발전하고 있으므로 성능 개선은 지속적인 프로세스입니다. 빠르고 반복적인 프로세스를 유지하려면 실험 공간을 학습 및 게재 플랫폼과 분리해야 합니다. 표준화되고 강력한 실험 프로세스가 중요합니다.

다음 권장사항을 고려하세요.

  • 실험 환경 빌드: 성능을 개선하려면 ML 파이프라인의 실험 및 공동 개발을 지원하는 강력한 전용 대화형 환경이 필요합니다.
  • 실험을 문화로 삽입: 프로덕션 배포 전에 실험을 실행합니다. 새 버전을 반복적으로 출시하고 항상 성능 데이터를 수집합니다. 다양한 데이터 유형, 기능 변환, 알고리즘, 초매개변수를 실험해 보세요.

학습 및 서빙 서비스 빌드 및 자동화

AI 모델 학습 및 서빙은 AI 서비스의 핵심 구성요소입니다. AI 모델을 빠르고 안정적으로 생성, 배포, 제공하는 것을 지원하는 강력한 플랫폼과 관행이 필요합니다. 핵심 AI 학습 및 제공 작업을 위한 기반 플랫폼을 만드는 데 시간과 노력을 투자하세요. 이러한 기반 플랫폼을 사용하면 팀의 시간과 노력을 줄이고 중장기적으로 결과물의 품질을 개선할 수 있습니다.

다음 권장사항을 고려하세요.

  • 학습 서비스의 AI 전문 구성요소 사용: 이러한 구성요소에는 Feature Store, 모델 레지스트리, 메타데이터 저장소, 모델 성능 평가 서비스와 같은 고성능 컴퓨팅 및 MLOps 구성요소가 포함됩니다.
  • 예측 서비스의 AI 전문 구성요소 사용: 이러한 구성요소는 고성능 확장형 리소스를 제공하고, 기능 모니터링을 지원하며, 모델 성능 모니터링을 사용 설정합니다. 성능 저하를 방지하고 관리하려면 안정적인 배포 및 롤백 전략을 구현하세요.

설계 선택사항을 성능 요구사항에 맞게 조정

성능을 개선하기 위해 설계 선택사항을 선택할 때는 선택사항이 비즈니스 요구사항을 충족하는지 아니면 낭비적이고 비생산적인지 신중하게 평가하세요. 적절한 인프라, 모델 또는 구성을 선택하려면 성능 병목 현상을 파악하고 성능 측정항목과 연결되는 방식을 평가합니다. 예를 들어 매우 강력한 GPU 가속기에서도 스토리지 레이어의 데이터 I/O 문제 또는 모델 자체의 성능 제한으로 인해 학습 작업에 성능 병목 현상이 발생할 수 있습니다.

다음 권장사항을 고려하세요.

  • 성능 목표에 따라 하드웨어 소비 최적화: 성능 요구사항을 충족하는 ML 모델을 학습하고 제공하려면 컴퓨팅, 스토리지, 네트워크 레이어에서 인프라를 최적화해야 합니다. 실적 목표에 영향을 미치는 변수를 측정하고 이해해야 합니다. 이러한 변수는 학습과 추론에 따라 다릅니다.
  • 워크로드별 요구사항에 중점: AI 및 ML 워크로드의 고유한 요구사항에 성능 최적화 작업을 집중합니다. 기본 인프라의 성능을 위해 관리형 서비스를 사용합니다.
  • 적절한 학습 전략 선택: 선행 학습된 여러 기본 모델을 사용할 수 있으며, 이러한 모델이 자주 출시됩니다. 태스크에 최적의 성능을 제공할 수 있는 학습 전략을 선택합니다. 자체 모델을 빌드할지, 데이터에서 선행 학습된 모델을 조정할지, 선행 학습된 모델 API를 사용할지 결정합니다.
  • 실적 최적화 전략의 수익률이 감소할 수 있음을 인식: 특정 실적 최적화 전략이 측정 가능한 비즈니스 가치를 제공하지 않는 경우 해당 전략을 중단합니다.

성능 문제를 혁신, 해결, 조사하려면 설계 선택사항과 성능 결과 간에 명확한 연결고리를 설정합니다. 실험 외에도 애셋, 배포, 모델 출력, 출력을 생성한 구성 및 입력의 계보를 안정적으로 기록해야 합니다.

다음 권장사항을 고려하세요.

  • 데이터 및 모델 계보 시스템 빌드: 배포된 모든 애셋과 해당 실적 측정항목은 배포된 시스템을 초래한 데이터, 구성, 코드, 선택사항에 다시 연결되어야 합니다. 또한 모델 출력은 특정 모델 버전 및 출력이 생성된 방식에 연결되어야 합니다.
  • 설명 가능성 도구를 사용하여 모델 성능 개선: 모델 탐색 및 설명 가능성을 위한 도구와 벤치마크를 채택하고 표준화합니다. 이러한 도구를 사용하면 ML 엔지니어가 모델 동작을 이해하고 성능을 개선하거나 편향을 제거할 수 있습니다.

참여자

저자:

기타 참여자: