AI 추론은 인공지능의 '실행' 부분입니다. 학습된 모델이 학습을 멈추고 작동하기 시작하여 지식을 실제 결과로 전환하는 순간입니다.
AI에 새로운 기술을 가르치는 것이 학습이라면, 추론은 AI가 실제로 해당 기술을 사용하여 작업을 수행하는 것이라고 생각하면 됩니다. 사진이나 텍스트와 같은 새로운 데이터를 입력받아 예측과 같은 즉각적인 출력을 생성하거나 사진을 생성하거나 의사 결정을 내립니다. 이러한 부분에서 AI가 비즈니스 가치를 제공합니다. AI를 사용해 빌드하는 모든 사람에게 추론을 빠르고 확장 가능하며 비용 효율적으로 만드는 방법을 이해하는 것은 성공적인 솔루션을 만드는 데 핵심입니다.
AI 수명 주기 전체에는 데이터 수집부터 장기 모니터링에 이르기까지 모든 과정이 포함되지만 모델의 생성부터 실행에 이르는 핵심 여정에는 세 가지 주요 단계가 있습니다. 처음 두 단계는 학습에 관한 것이고, 마지막 단계는 학습한 내용을 업무에 적용하는 것입니다.
다음 표에는 주요 차이점이 요약되어 있습니다.
AI 학습 | AI 세부 조정 | AI 추론 | AI 서빙 | |
목표 | 처음부터 새 모델을 빌드합니다. | 특정 작업에 맞게 사전 학습 모델을 조정합니다. | 학습된 모델을 사용하여 예측합니다. | 추론 요청을 처리하기 위해 모델을 배포하고 관리합니다. |
절차 | 대규모 데이터 세트에서 반복적으로 학습합니다. | 더 작은 데이터 세트로 기존 모델을 미세 조정합니다. | 새로운 데이터의 단일하고 빠른 '정방향 전달'입니다. | 모델을 패키징하고 API로 노출 |
데이터 | 대규모의 이전 라벨이 지정된 데이터 세트입니다. | 더 작은 작업별 데이터 세트입니다. | 실시간, 실제, 라벨이 지정되지 않은 데이터입니다. | 해당 사항 없음 |
비즈니스 중점 영역 | 모델 정확성 및 기능 | 효율성과 맞춤설정 | 속도(지연 시간), 확장성, 비용 효율성 | 추론 엔드포인트의 안정성, 확장성, 관리 가능성 |
AI 학습
AI 세부 조정
AI 추론
AI 서빙
목표
처음부터 새 모델을 빌드합니다.
특정 작업에 맞게 사전 학습 모델을 조정합니다.
학습된 모델을 사용하여 예측합니다.
추론 요청을 처리하기 위해 모델을 배포하고 관리합니다.
절차
대규모 데이터 세트에서 반복적으로 학습합니다.
더 작은 데이터 세트로 기존 모델을 미세 조정합니다.
새로운 데이터의 단일하고 빠른 '정방향 전달'입니다.
모델을 패키징하고 API로 노출
데이터
대규모의 이전 라벨이 지정된 데이터 세트입니다.
더 작은 작업별 데이터 세트입니다.
실시간, 실제, 라벨이 지정되지 않은 데이터입니다.
해당 사항 없음
비즈니스 중점 영역
모델 정확성 및 기능
효율성과 맞춤설정
속도(지연 시간), 확장성, 비용 효율성
추론 엔드포인트의 안정성, 확장성, 관리 가능성
AI 추론은 기본적으로 새로운 데이터를 유용한 출력으로 전환하는 세 가지 단계를 포함합니다.
사진 속 객체를 식별하도록 빌드된 AI 모델이라는 간단한 예시를 통해 살펴보겠습니다.
단일 추론은 빠르지만 수백만 명의 사용자에게 실시간으로 서비스를 제공하면 지연 시간과 비용이 늘어나고 최적화된 하드웨어가 필요합니다. AI에 특화된 그래픽 처리 장치(GPU)와 Google의 Tensor Processing Unit은 Google Kubernetes Engine과의 조정을 통해 이러한 작업을 효율적으로 처리하도록 설계되어 처리량을 늘리고 지연 시간을 줄이는 데 도움이 됩니다.
가장 일반적인 접근 방식으로, 데이터 센터의 강력한 원격 서버에서 추론이 실행됩니다. 클라우드는 엄청난 확장성과 컴퓨팅 리소스를 제공하므로 대규모 데이터 세트와 복잡한 모델을 처리하는 데 이상적입니다. 클라우드 내에는 일반적으로 두 가지 기본 추론 모드가 있습니다.
이 접근 방식은 데이터가 생성되는 기기(예: 스마트폰 또는 산업용 센서)에서 직접 추론을 수행합니다. 클라우드로의 왕복을 피함으로써 에지 추론은 다음과 같은 고유한 이점을 제공합니다.
특정 요구사항에 가장 적합한 접근 방식을 선택하는 데 도움이 되도록 각 유형의 AI 추론에 대한 주요 특성과 사용 사례를 간략하게 비교해 보겠습니다.
기능 | 일괄 추론 | 실시간 추론 | 에지 추론 |
기본 위치 | 클라우드(데이터 센터) | 클라우드(데이터 센터) | 로컬 기기(예: 휴대전화, IoT 센서, 로봇) |
지연 시간/응답 | 높음(일괄 처리 후 반환되는 예측) | 매우 낮음(요청당 밀리초~초) | 매우 낮음(거의 즉각적, 네트워크 홉 없음) |
데이터 볼륨 | 대규모 데이터 세트(테라바이트 등) | 개별 이벤트/요청 | 개별 이벤트/요청(온디바이스) |
데이터 흐름 | 클라우드로 전송된 데이터, 처리, 반환된 결과 | 클라우드로 전송된 각 요청, 처리, 반환 | 기기에서 처리된 데이터, 기기에서 사용된 결과 |
일반적인 사용 사례 | 대규모 문서 분류, 야간 재무 분석, 주기적 예측 유지보수 | 제품 추천, 챗봇, 실시간 번역, 실시간 사기 알림 | 자율 주행, 스마트 카메라, 오프라인 음성 어시스턴트, 산업 품질 관리 |
주요 이점 | 대규모의 긴급하지 않은 작업에 비용 효율적 | 사용자 대상 앱의 즉각적인 응답 | 최소한의 지연 시간, 강화된 개인 정보 보호, 오프라인 기능, 대역폭 비용 절감 |
기능
일괄 추론
실시간 추론
에지 추론
기본 위치
클라우드(데이터 센터)
클라우드(데이터 센터)
로컬 기기(예: 휴대전화, IoT 센서, 로봇)
지연 시간/응답
높음(일괄 처리 후 반환되는 예측)
매우 낮음(요청당 밀리초~초)
매우 낮음(거의 즉각적, 네트워크 홉 없음)
데이터 볼륨
대규모 데이터 세트(테라바이트 등)
개별 이벤트/요청
개별 이벤트/요청(온디바이스)
데이터 흐름
클라우드로 전송된 데이터, 처리, 반환된 결과
클라우드로 전송된 각 요청, 처리, 반환
기기에서 처리된 데이터, 기기에서 사용된 결과
일반적인 사용 사례
대규모 문서 분류, 야간 재무 분석, 주기적 예측 유지보수
제품 추천, 챗봇, 실시간 번역, 실시간 사기 알림
자율 주행, 스마트 카메라, 오프라인 음성 어시스턴트, 산업 품질 관리
주요 이점
대규모의 긴급하지 않은 작업에 비용 효율적
사용자 대상 앱의 즉각적인 응답
최소한의 지연 시간, 강화된 개인 정보 보호, 오프라인 기능, 대역폭 비용 절감
AI 추론은 새로운 수준의 자동화, 더 스마트한 의사 결정, 혁신적인 애플리케이션을 가능하게 함으로써 산업을 혁신하고 있습니다. 엔터프라이즈 개발자에게 추론이 실질적인 비즈니스 가치를 제공하는 몇 가지 중요한 영역은 다음과 같습니다.
AI 추론은 지연 시간 관리, 비용 제어, 확장성 보장 등 고유한 기술적 과제를 안고 있습니다. Google Cloud는 추론을 위한 유연한 경로를 제공하므로 모델의 복잡성, 성능 요구사항, 운영 용량에 따라 적합한 도구를 선택할 수 있습니다. 완전 관리형 솔루션으로 시작하여 요구사항이 진화함에 따라 점진적으로 더 맞춤화된 인프라를 도입할 수 있습니다.
이 접근 방식은 강력한 AI 기능을 빠르게 통합하려는 AI 초보자를 포함한 모든 기술 수준의 개발자에게 적합합니다. 모델이나 인프라를 관리할 필요 없이 간단한 API 호출을 수행하면 됩니다.
간단한 API 엔드포인트를 사용하여 Google의 Gemini 모델과 다양한 오픈소스 모델을 사용하세요. 호스팅 및 확장과 관련된 복잡한 작업을 처리하므로 애플리케이션에 집중하고 생성형 AI 태스크에 대한 강력한 결과를 얻을 수 있습니다. |
간단한 API 엔드포인트를 사용하여 Google의 Gemini 모델과 다양한 오픈소스 모델을 사용하세요. 호스팅 및 확장과 관련된 복잡한 작업을 처리하므로 애플리케이션에 집중하고 생성형 AI 태스크에 대한 강력한 결과를 얻을 수 있습니다.
이 옵션은 이미 커스텀 모델을 빌드한 개발자를 위한 것입니다. Google Cloud의 관리형 서비스에 배포할 수 있으므로 복잡한 서버 설정이나 조정 작업을 직접 처리할 필요가 없습니다. 인프라가 아닌 모델에 집중할 수 있습니다.
Vertex AI Prediction은 머신러닝 모델을 확장 가능한 엔드포인트로 배포하는 관리형 서비스로, GPU와 같은 하드웨어 가속기를 사용하여 실시간 데이터와 대규모 일괄 데이터 모두를 빠르게 처리합니다. | |
자동 Scale-to-zero 및 요청당 지불 가격 책정으로 컨테이너화된 모델을 배포하세요. 이는 변동성이 크고 간헐적인 워크로드 또는 간단한 웹 서비스에 적합합니다. |
Vertex AI Prediction은 머신러닝 모델을 확장 가능한 엔드포인트로 배포하는 관리형 서비스로, GPU와 같은 하드웨어 가속기를 사용하여 실시간 데이터와 대규모 일괄 데이터 모두를 빠르게 처리합니다.
자동 Scale-to-zero 및 요청당 지불 가격 책정으로 컨테이너화된 모델을 배포하세요. 이는 변동성이 크고 간헐적인 워크로드 또는 간단한 웹 서비스에 적합합니다.
개발자와 MLOps는 클라우드 또는 하이브리드 환경 전반에서 흔히 특수 하드웨어를 사용하여 커스텀 컨테이너화된 추론 서비스를 배포, 관리, 확장할 수 있는 세밀한 제어와 유연성을 확보할 수 있습니다.
GKE는 CPU, GPU, TPU를 포함한 하드웨어에 대한 세분화된 제어를 제공하므로 매우 크거나 복잡한 머신러닝 모델의 서빙 성능과 비용을 맞춤설정하고 최적화하는 데 이상적입니다. |
GKE는 CPU, GPU, TPU를 포함한 하드웨어에 대한 세분화된 제어를 제공하므로 매우 크거나 복잡한 머신러닝 모델의 서빙 성능과 비용을 맞춤설정하고 최적화하는 데 이상적입니다.
SQL을 사용하는 경우 이제 데이터가 이미 있는 곳에서 바로 AI 모델의 예측을 얻을 수 있습니다. 따라서 데이터를 별도의 플랫폼으로 이동할 필요가 없어 워크플로가 간소화됩니다.
추론에 BigQuery를 사용하면 간단한 SQL 명령어로 데이터에 직접 머신러닝 모델을 실행할 수 있으므로 데이터를 이동할 필요가 없고 복잡성과 지연 시간이 줄어듭니다. 특히 데이터가 이미 BigQuery에 저장되어 있는 경우 고객 세분화 또는 수요 예측과 같은 일괄 처리 작업에 매우 효율적인 방법입니다. |
추론에 BigQuery를 사용하면 간단한 SQL 명령어로 데이터에 직접 머신러닝 모델을 실행할 수 있으므로 데이터를 이동할 필요가 없고 복잡성과 지연 시간이 줄어듭니다. 특히 데이터가 이미 BigQuery에 저장되어 있는 경우 고객 세분화 또는 수요 예측과 같은 일괄 처리 작업에 매우 효율적인 방법입니다.
AI 추론 기술을 한 단계 업그레이드할 준비가 되셨나요? 자세히 알아보고 시작하는 데 도움이 되는 유용한 리소스를 소개합니다.