AI 추론이란 무엇인가요?

AI 추론은 인공지능의 '실행' 부분입니다. 학습된 모델이 학습을 멈추고 작동하기 시작하여 지식을 실제 결과로 전환하는 순간입니다.

AI에 새로운 기술을 가르치는 것이 학습이라면, 추론은 AI가 실제로 해당 기술을 사용하여 작업을 수행하는 것이라고 생각하면 됩니다. 사진이나 텍스트와 같은 새로운 데이터를 입력받아 예측과 같은 즉각적인 출력을 생성하거나 사진을 생성하거나 의사 결정을 내립니다. 이러한 부분에서 AI가 비즈니스 가치를 제공합니다. AI를 사용해 빌드하는 모든 사람에게 추론을 빠르고 확장 가능하며 비용 효율적으로 만드는 방법을 이해하는 것은 성공적인 솔루션을 만드는 데 핵심입니다. 예를 들어 엔터프라이즈 개발자는 Google Kubernetes Engine(GKE)에서 AI 추론을 사용하여 고객 구매를 실시간으로 분석하고 결제 시 맞춤형 할인을 제공하여 매출과 고객 만족도를 높이는 시스템을 빌드할 수 있습니다.

'AI 학습'과 '세부 조정'과 '추론'과 '서빙' 비교

AI 수명 주기 전체에는 데이터 수집부터 장기 모니터링에 이르기까지 모든 과정이 포함되지만 모델의 생성부터 실행에 이르는 핵심 여정에는 세 가지 주요 단계가 있습니다. 처음 두 단계는 학습에 관한 것이고, 마지막 단계는 학습한 내용을 업무에 적용하는 것입니다.

  • AI 학습은 기본적인 학습 단계입니다. 모델이 방대한 데이터 세트를 분석하여 패턴과 관계를 학습하는 컴퓨팅 집약적인 프로세스입니다. 목표는 정확하고 지식이 풍부한 모델을 만드는 것입니다. 이를 위해서는 강력한 하드웨어 가속기(예: GPU 및 TPU)가 필요하며 몇 시간에서 몇 주까지 걸릴 수 있습니다.
  • AI 세부 조정은 학습의 지름길입니다. 강력한 사전 학습 모델을 가져와 더 작고 특화된 데이터 세트를 사용하여 더 구체적인 작업에 맞게 조정합니다. 모델을 처음부터 학습시키는 것보다 상당한 시간과 리소스를 절약할 수 있습니다.
  • AI 추론은 실행 단계입니다. 학습되고 세부 조정된 모델을 사용하여 '처음 접하는' 새로운 데이터에 대한 빠른 예측을 수행합니다. 각 예측은 학습보다 훨씬 적은 컴퓨팅 리소스를 필요로 하지만 수백만 개의 예측을 실시간으로 제공하려면 고도로 최적화되고 확장 가능한 인프라가 필요합니다.
  • AI 서빙은 추론을 위해 모델을 배포하고 관리하는 프로세스입니다. 여기에는 모델 패키징, API 엔드포인트 설정, 요청 처리를 위한 인프라 관리가 포함되는 경우가 많습니다.

다음 표에는 주요 차이점이 요약되어 있습니다.

AI 학습

AI 세부 조정

AI 추론

AI 서빙

목표

처음부터 새 모델을 빌드합니다.

특정 작업에 맞게 사전 학습 모델을 조정합니다.

학습된 모델을 사용하여 예측합니다.

추론 요청을 처리하기 위해 모델을 배포하고 관리합니다.

절차

대규모 데이터 세트에서 반복적으로 학습합니다.

더 작은 데이터 세트로 기존 모델을 미세 조정합니다.

새로운 데이터의 단일하고 빠른 '정방향 전달'입니다.


모델을 패키징하고 API로 노출

데이터

대규모의 이전 라벨이 지정된 데이터 세트입니다.

더 작은 작업별 데이터 세트입니다.

실시간, 실제, 라벨이 지정되지 않은 데이터입니다.

해당 사항 없음


비즈니스 중점 영역

모델 정확성 및 기능

효율성과 맞춤설정

속도(지연 시간), 확장성, 비용 효율성

추론 엔드포인트의 안정성, 확장성, 관리 가능성

AI 학습

AI 세부 조정

AI 추론

AI 서빙

목표

처음부터 새 모델을 빌드합니다.

특정 작업에 맞게 사전 학습 모델을 조정합니다.

학습된 모델을 사용하여 예측합니다.

추론 요청을 처리하기 위해 모델을 배포하고 관리합니다.

절차

대규모 데이터 세트에서 반복적으로 학습합니다.

더 작은 데이터 세트로 기존 모델을 미세 조정합니다.

새로운 데이터의 단일하고 빠른 '정방향 전달'입니다.


모델을 패키징하고 API로 노출

데이터

대규모의 이전 라벨이 지정된 데이터 세트입니다.

더 작은 작업별 데이터 세트입니다.

실시간, 실제, 라벨이 지정되지 않은 데이터입니다.

해당 사항 없음


비즈니스 중점 영역

모델 정확성 및 기능

효율성과 맞춤설정

속도(지연 시간), 확장성, 비용 효율성

추론 엔드포인트의 안정성, 확장성, 관리 가능성

AI 추론은 어떻게 작동하나요?

AI 추론은 기본적으로 새로운 데이터를 유용한 출력으로 전환하는 세 가지 단계를 포함합니다. 

사진 속 객체를 식별하도록 빌드된 AI 모델이라는 간단한 예시를 통해 살펴보겠습니다.

  1. 입력 데이터 준비: 먼저 새로운 데이터(예: 방금 제출한 사진)가 제공됩니다. 이 사진은 모델에 맞게 즉시 준비됩니다. 이는 단순히 학습된 정확한 크기에 맞춰 크기를 조정하는 것을 의미할 수 있습니다.
  2. 모델 실행: 다음으로 AI 모델이 준비된 사진을 분석합니다. 학습 과정에서 배운 내용과 일치하는 패턴(색상, 모양, 질감 등)을 찾습니다. 이러한 빠른 분석을 '정방향 전달'이라고 하며, 모델이 새로운 것을 학습하지 않고 지식을 적용하는 읽기 전용 단계입니다.
  3. 출력 생성: 모델이 실행 가능한 결과를 생성합니다. 사진 분석의 경우 확률 점수(예: 이미지에 '개'가 포함될 가능성이 95%임)가 될 수 있습니다. 이 출력은 애플리케이션으로 전송되어 사용자에게 표시됩니다.

단일 추론은 빠르지만 수백만 명의 사용자에게 실시간으로 서비스를 제공하면 지연 시간과 비용이 늘어나고 최적화된 하드웨어가 필요합니다. AI에 특화된 그래픽 처리 장치(GPU)와 Google의 Tensor Processing Unit은 Google Kubernetes Engine과의 조정을 통해 이러한 작업을 효율적으로 처리하도록 설계되어 처리량을 늘리고 지연 시간을 줄이는 데 도움이 됩니다.

AI 추론 유형

클라우드 추론: 성능 및 규모

가장 일반적인 접근 방식으로, 데이터 센터의 강력한 원격 서버에서 추론이 실행됩니다. 클라우드는 엄청난 확장성과 컴퓨팅 리소스를 제공하므로 대규모 데이터 세트와 복잡한 모델을 처리하는 데 이상적입니다. 클라우드 내에는 일반적으로 두 가지 기본 추론 모드가 있습니다.

  • 실시간(온라인) 추론: 개별 요청이 수신되는 즉시 처리하며, 보통 밀리초 내에 처리됩니다. 이는 즉각적인 피드백이 필요한 양방향 애플리케이션에 매우 중요합니다.
  • 일괄(오프라인) 추론: 일반적으로 즉각적인 응답이 필요하지 않은 경우 대량의 데이터를 한 번에 처리합니다. 정기 분석 또는 예약된 작업에 매우 비용 효율적인 방법입니다.

에지 추론: 속도와 개인 정보 보호

이 접근 방식은 데이터가 생성되는 기기(스마트폰 또는 산업용 센서)에서 직접 추론을 수행합니다. 클라우드로의 왕복을 피함으로써 에지 추론은 다음과 같은 고유한 이점을 제공합니다.

  • 지연 시간 단축: 자율 주행 차량이나 실시간 제조 점검과 같은 애플리케이션에 중요한 거의 즉각적인 응답을 제공합니다.
  • 개인 정보 보호 강화: 의료 스캔, 개인 사진, 동영상 피드와 같은 민감한 정보를 클라우드로 전송하지 않고도 기기에서 처리할 수 있습니다.
  • 대역폭 비용 절감: 로컬에서 데이터를 처리하면 업로드 및 다운로드해야 하는 데이터의 양이 크게 줄어듭니다.
  • 오프라인 기능: 인터넷 연결 없이도 애플리케이션이 계속 작동하므로 원격 환경이나 연결이 끊긴 환경에서도 지속적인 운영이 가능합니다.

Google Cloud로 비즈니스 문제 해결

신규 고객에게는 Google Cloud에서 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.

AI 추론 비교

특정 요구사항에 가장 적합한 접근 방식을 선택하는 데 도움이 되도록 각 유형의 AI 추론에 대한 주요 특성과 사용 사례를 간략하게 비교해 보겠습니다.

기능

일괄 추론

실시간 추론

에지 추론

기본 위치

클라우드(데이터 센터)

클라우드(데이터 센터)

로컬 기기(예: 휴대전화, IoT 센서, 로봇)

지연 시간/응답

높음(일괄 처리 후 반환되는 예측)


매우 낮음(요청당 밀리초~초)

매우 낮음(거의 즉각적, 네트워크 홉 없음)

데이터 볼륨

대규모 데이터 세트(테라바이트 등)

개별 이벤트/요청

개별 이벤트/요청(온디바이스)

데이터 흐름

클라우드로 전송된 데이터, 처리, 반환된 결과

클라우드로 전송된 각 요청, 처리, 반환

기기에서 처리된 데이터, 기기에서 사용된 결과

일반적인 사용 사례

대규모 문서 분류, 야간 재무 분석, 주기적 예측 유지보수

제품 추천, 챗봇, 실시간 번역, 실시간 사기 알림

자율 주행, 스마트 카메라, 오프라인 음성 어시스턴트, 산업 품질 관리

주요 이점

대규모의 긴급하지 않은 작업에 비용 효율적

사용자 대상 앱의 즉각적인 응답

최소한의 지연 시간, 강화된 개인 정보 보호, 오프라인 기능, 대역폭 비용 절감

기능

일괄 추론

실시간 추론

에지 추론

기본 위치

클라우드(데이터 센터)

클라우드(데이터 센터)

로컬 기기(예: 휴대전화, IoT 센서, 로봇)

지연 시간/응답

높음(일괄 처리 후 반환되는 예측)


매우 낮음(요청당 밀리초~초)

매우 낮음(거의 즉각적, 네트워크 홉 없음)

데이터 볼륨

대규모 데이터 세트(테라바이트 등)

개별 이벤트/요청

개별 이벤트/요청(온디바이스)

데이터 흐름

클라우드로 전송된 데이터, 처리, 반환된 결과

클라우드로 전송된 각 요청, 처리, 반환

기기에서 처리된 데이터, 기기에서 사용된 결과

일반적인 사용 사례

대규모 문서 분류, 야간 재무 분석, 주기적 예측 유지보수

제품 추천, 챗봇, 실시간 번역, 실시간 사기 알림

자율 주행, 스마트 카메라, 오프라인 음성 어시스턴트, 산업 품질 관리

주요 이점

대규모의 긴급하지 않은 작업에 비용 효율적

사용자 대상 앱의 즉각적인 응답

최소한의 지연 시간, 강화된 개인 정보 보호, 오프라인 기능, 대역폭 비용 절감

개발자 사용 사례

AI 추론은 새로운 수준의 자동화, 더 스마트한 의사 결정, 혁신적인 애플리케이션을 가능하게 함으로써 산업을 혁신하고 있습니다. 엔터프라이즈 개발자에게 추론이 실질적인 비즈니스 가치를 제공하는 몇 가지 중요한 영역은 다음과 같습니다.

  • 금융 거래, 사용자 행동 또는 시스템 로그를 즉시 분석하여 의심스러운 활동을 식별하고 신고합니다. 이를 통해 사기, 자금 세탁 또는 보안 침해를 방지하기 위한 선제적 개입이 가능합니다.
  • 예: 한 신용카드 회사는 추론을 사용하여 밀리초 단위로 트랜잭션을 승인하고 잠재적으로 사기성 구매를 즉시 차단합니다.


  • 사용자의 과거 상호작용과 실시간 컨텍스트를 기반으로 선호도를 예측하여 사용자에게 고도로 맞춤화된 경험을 제공합니다.
  • 예: 전자상거래 플랫폼은 추론을 사용하여 쇼핑객에게 제품을 추천하고 스트리밍 서비스는 시청 습관을 기반으로 영화를 추천하여 참여도와 매출을 높입니다.


  • AI 모델을 배포하여 일상적인 작업을 자동화하고, 지능형 지원을 제공하며, 대규모로 사용자와 상호작용할 수 있습니다.
  • 예: 고객 서비스 조직은 AI 에이전트를 사용하여 일반적인 문의를 처리함으로써 인간 상담사가 복잡한 문제에 집중할 수 있도록 하거나 공장에서는 AI를 사용하여 조립 라인에서 품질 검사를 자동화합니다.


  •  기계, 인프라 또는 IT 시스템의 센서 데이터를 분석하여 문제가 발생하기 전에 고장을 예측하거나 수요를 예측하거나 리소스 할당을 최적화할 수 있습니다.
  • 예: 제조업체는 추론을 사용하여 장비에 서비스가 필요한 시기를 예측하여 다운타임을 최소화하고 자산 수명을 연장하며, 물류 회사는 실시간 교통 예측을 기반으로 경로를 최적화합니다.


  • AI를 활용하여 새로운 콘텐츠(텍스트, 코드, 이미지, 오디오)를 만들거나 기존의 비정형 데이터를 심층적으로 이해할 수 있습니다.
  • 예: 개발자는 코드 생성 모델을 사용하여 소프트웨어 개발 속도를 높이고, 마케팅팀은 AI를 사용하여 대량의 문서를 요약하고 광고 문구를 맞춤설정합니다.
어떤 문제를 해결하려고 하시나요?
What you'll get:
단계별 안내
참조 아키텍처
사용 가능한 사전 빌드 솔루션
이 서비스는 Vertex AI로 빌드되었습니다. 이 서비스를 사용하려면 만 18세 이상이어야 합니다. 민감한 정보, 기밀 정보 또는 개인 정보를 입력하지 마세요.

Google Cloud가 지원하는 방식

Google Cloud는 개발자와 조직이 AI 추론 워크로드를 효율적이고 대규모로 빌드, 배포, 관리하는 데 도움이 되는 포괄적인 도구 및 서비스 제품군을 제공합니다. 추론 기능은 다음과 같은 여러 제품에 긴밀하게 통합되어 있습니다.

관련 제품 및 솔루션

Google Cloud 제품

지원되는 추론 접근 방식

다음과 같은 경우에 적합

추론 사용 사례 예시

모든 추론 유형(클라우드 및 하이브리드)

클라우드 또는 하이브리드 환경 전반에서 특수 하드웨어를 사용하여 커스텀 컨테이너화된 추론 서비스를 배포, 관리, 확장할 수 있는 최고의 제어력과 유연성을 확보하세요.

복잡한 산업 시스템에서 실시간 이상 감지를 위한 맞춤형 AI 모델을 배포하고 확장합니다.

실시간 클라우드 추론(서버리스)

0으로 자동 확장 및 요청당 지불 가격 책정으로 컨테이너화된 모델을 배포하여 변동성이 크고 간헐적인 워크로드 또는 간단한 웹 서비스에 적합합니다.


트래픽이 크게 변동하는 웹 애플리케이션에 중소 규모 모델을 제공하여 비용 효율성을 보장합니다.


실시간 및 일괄 클라우드 추론

다양한 AI 모델과 프레임워크에 유연한 고성능 가속을 제공합니다.

의료 진단을 위해 고해상도 이미지를 빠르게 처리하거나 복잡한 재무 모델링을 가속화합니다.


일괄 클라우드 추론(데이터 웨어하우스)

SQL을 사용하여 데이터 웨어하우스에 이미 있는 데이터에 대해 직접 추론을 수행하여 데이터 이동을 없앱니다.


BigQuery 내 CRM 데이터에서 직접 고객 이탈을 예측합니다.


실시간 클라우드 추론(특정 작업)

모델을 빌드하거나 학습시키지 않고도 비전, 언어, 음성과 같은 고급 AI 기능을 애플리케이션에 쉽게 삽입할 수 있습니다.

고객 채팅 메시지를 실시간으로 자동 번역하거나 소셜 미디어 게시물에서 감정을 파악할 수 있습니다.


실시간 및 일괄 클라우드 추론(대규모 모델)

특히 대규모 언어 모델(LLM)과 같이 매우 크고 복잡한 딥 러닝 모델을 제공할 때 최대 성능과 비용 효율성을 달성합니다.

최첨단 생성형 AI 챗봇의 실시간 응답을 지원합니다.


에지 솔루션(예: Coral, GDC Edge)


에지 추론

기기에서 직접 모델을 실행하여 지연 시간을 극도로 줄이거나, 개인 정보 보호를 강화하거나, 오프라인 기능을 사용 설정합니다.


동영상을 클라우드로 전송하지 않고도 스마트 카메라에서 즉각적인 객체 인식을 수행합니다.


일괄 클라우드 추론을 위한 데이터 준비

대규모 일괄 추론 작업을 위해 방대한 양의 데이터를 효율적으로 처리하고 준비합니다.


예측 유지보수 모델에 피드하기 전에 페타바이트 규모의 센서 데이터를 전처리합니다.

Google Cloud 제품

지원되는 추론 접근 방식

다음과 같은 경우에 적합

추론 사용 사례 예시

모든 추론 유형(클라우드 및 하이브리드)

클라우드 또는 하이브리드 환경 전반에서 특수 하드웨어를 사용하여 커스텀 컨테이너화된 추론 서비스를 배포, 관리, 확장할 수 있는 최고의 제어력과 유연성을 확보하세요.

복잡한 산업 시스템에서 실시간 이상 감지를 위한 맞춤형 AI 모델을 배포하고 확장합니다.

실시간 클라우드 추론(서버리스)

0으로 자동 확장 및 요청당 지불 가격 책정으로 컨테이너화된 모델을 배포하여 변동성이 크고 간헐적인 워크로드 또는 간단한 웹 서비스에 적합합니다.


트래픽이 크게 변동하는 웹 애플리케이션에 중소 규모 모델을 제공하여 비용 효율성을 보장합니다.


실시간 및 일괄 클라우드 추론

다양한 AI 모델과 프레임워크에 유연한 고성능 가속을 제공합니다.

의료 진단을 위해 고해상도 이미지를 빠르게 처리하거나 복잡한 재무 모델링을 가속화합니다.


일괄 클라우드 추론(데이터 웨어하우스)

SQL을 사용하여 데이터 웨어하우스에 이미 있는 데이터에 대해 직접 추론을 수행하여 데이터 이동을 없앱니다.


BigQuery 내 CRM 데이터에서 직접 고객 이탈을 예측합니다.


실시간 클라우드 추론(특정 작업)

모델을 빌드하거나 학습시키지 않고도 비전, 언어, 음성과 같은 고급 AI 기능을 애플리케이션에 쉽게 삽입할 수 있습니다.

고객 채팅 메시지를 실시간으로 자동 번역하거나 소셜 미디어 게시물에서 감정을 파악할 수 있습니다.


실시간 및 일괄 클라우드 추론(대규모 모델)

특히 대규모 언어 모델(LLM)과 같이 매우 크고 복잡한 딥 러닝 모델을 제공할 때 최대 성능과 비용 효율성을 달성합니다.

최첨단 생성형 AI 챗봇의 실시간 응답을 지원합니다.


에지 솔루션(예: Coral, GDC Edge)


에지 추론

기기에서 직접 모델을 실행하여 지연 시간을 극도로 줄이거나, 개인 정보 보호를 강화하거나, 오프라인 기능을 사용 설정합니다.


동영상을 클라우드로 전송하지 않고도 스마트 카메라에서 즉각적인 객체 인식을 수행합니다.


일괄 클라우드 추론을 위한 데이터 준비

대규모 일괄 추론 작업을 위해 방대한 양의 데이터를 효율적으로 처리하고 준비합니다.


예측 유지보수 모델에 피드하기 전에 페타바이트 규모의 센서 데이터를 전처리합니다.

Vertex AI

Vertex AI는 Google Cloud의 통합 AI 플랫폼입니다. ML 모델을 빌드, 배포, 관리하기 위한 포괄적인 도구를 제공하므로 대부분의 클라우드 기반 추론 요구사항에 적합한 서비스입니다.

Vertex AI 기능

추론 접근 방식

다음과 같은 경우에 적합

추론 사용 사례 예시

실시간 클라우드 추론

커스텀 모델을 배포하고 관리형 엔드포인트에서 지연 시간이 짧은 실시간 예측을 얻으세요.

웹사이트를 탐색하는 사용자에게 즉시 제품을 추천합니다.



일괄 클라우드 추론

실시간 결과가 필요하지 않은 대규모 데이터 세트를 비용 효율적으로 처리합니다.

어제부터 모든 고객 트랜잭션을 분석하여 사기 패턴을 감지합니다.

실시간 및 일괄 클라우드 추론(생성형 AI)

처음부터 학습시키지 않고도 일반적인 작업이나 생성형 AI 작업에 강력한 사전 학습 모델을 빠르게 활용합니다.

마케팅 카피를 생성하거나, 긴 문서를 요약하거나, 코드 스니펫을 만듭니다.


Vertex AI 기능

추론 접근 방식

다음과 같은 경우에 적합

추론 사용 사례 예시

실시간 클라우드 추론

커스텀 모델을 배포하고 관리형 엔드포인트에서 지연 시간이 짧은 실시간 예측을 얻으세요.

웹사이트를 탐색하는 사용자에게 즉시 제품을 추천합니다.



일괄 클라우드 추론

실시간 결과가 필요하지 않은 대규모 데이터 세트를 비용 효율적으로 처리합니다.

어제부터 모든 고객 트랜잭션을 분석하여 사기 패턴을 감지합니다.

실시간 및 일괄 클라우드 추론(생성형 AI)

처음부터 학습시키지 않고도 일반적인 작업이나 생성형 AI 작업에 강력한 사전 학습 모델을 빠르게 활용합니다.

마케팅 카피를 생성하거나, 긴 문서를 요약하거나, 코드 스니펫을 만듭니다.


AI 추론 리소스 살펴보기

AI 추론 기술을 한 단계 업그레이드할 준비가 되셨나요? 자세히 알아보고 시작하는 데 도움이 되는 유용한 리소스를 소개합니다.

다음 단계 수행

$300의 무료 크레딧과 20여 개의 항상 무료 제품으로 Google Cloud에서 빌드하세요.

Google Cloud