TPU가 적합한지 잘 모르겠다면 머신러닝 워크로드를 실행하기 위해 Compute Engine 인스턴스에서 GPU 또는 CPU를 사용해야 하는 경우를 알아보세요.
개요
Google Cloud TPU는 AI 모델의 학습과 추론에 최적화된 커스텀 설계된 AI 가속기입니다. 에이전트, 코드 생성, 미디어 콘텐츠 생성, 합성 음성, 비전 서비스, 추천 엔진, 맞춤설정 모델 등 다양한 사용 사례에 적합합니다. TPU는 Gemini와 Google의 모든 AI 기반 애플리케이션(예: Google 검색, 포토, 지도)을 지원하며, 이 모든 애플리케이션은 10억 명이 넘는 사용자에게 서비스를 제공합니다.
Cloud TPU는 학습, 미세 조정, 추론을 아우르는 다양한 AI 워크로드에 맞게 경제적으로 확장되도록 설계되었습니다. Cloud TPU는 PyTorch, JAX, TensorFlow와 같은 첨단 AI 프레임워크에서 워크로드 가속화를 위해 다기능성을 제공합니다. Google Kubernetes Engine(GKE)에서 Cloud TPU 통합을 통해 대규모 AI 워크로드를 원활하게 조정할 수 있습니다. 동적 워크로드 스케줄러를 활용하여 필요한 모든 가속기를 동시에 예약하여 워크로드의 확장성을 개선합니다. AI 모델을 개발하는 가장 간단한 방법을 찾는 고객은 완전 관리형 AI 플랫폼인 Vertex AI에서 Cloud TPU를 활용할 수도 있습니다.
GPU는 원래 컴퓨터 그래픽을 조작할 수 있도록 설계된 특수 프로세서입니다. 병렬 구조 덕분에 AI 워크로드에서 흔히 발견되는 대규모 데이터 블록을 처리하는 알고리즘에 적합합니다. 자세히 알아보기
TPU는 Google이 신경망에 맞게 설계한 애플리케이션 특정 통합 회로(ASIC)입니다. TPU에는 행렬 곱셈 단위(MXU) 및 독점 상호 연결 토폴로지와 같은 특수 기능이 있어 AI 학습 및 추론 속도를 높이는 데 적합합니다.
Cloud TPU 버전
| Cloud TPU 버전 | 설명 | 사용 가능 여부 |
|---|---|---|
Ironwood | 대규모 학습 및 추론을 위한 Google의 가장 강력하고 효율적인 TPU | Ironwood TPU는 2025년 4분기에 정식 버전으로 출시될 예정입니다 |
Trillium | 6세대 TPU. 학습 및 추론을 위한 칩당 에너지 효율성 및 최대 컴퓨팅 성능 개선 | Trillium은 북미(미국 동부 리전), 유럽(서부 리전), 아시아(동북부 리전)에서 정식 버전으로 제공됩니다. |
Cloud TPU v5p | 복잡한 대규모 파운데이션 모델을 빌드하기 위한 강력한 TPU | Cloud TPU v5p는 북미(미국 동부 리전)에서 정식 버전으로 제공됩니다 |
Cloud TPU v5e | 중간 또는 대규모 학습 및 추론 워크로드에 적합한 비용 효율적이고 접근성이 뛰어난 TPU | Cloud TPU v5e는 북미(미국 중부/동부/남부/서부 지역), 유럽(서부 지역), 아시아(동남 지역)에서 정식 버전으로 제공됩니다 |
Cloud TPU 버전에 관한 추가 정보
Ironwood
대규모 학습 및 추론을 위한 Google의 가장 강력하고 효율적인 TPU
Ironwood TPU는 2025년 4분기에 정식 버전으로 출시될 예정입니다
Trillium
6세대 TPU. 학습 및 추론을 위한 칩당 에너지 효율성 및 최대 컴퓨팅 성능 개선
Trillium은 북미(미국 동부 리전), 유럽(서부 리전), 아시아(동북부 리전)에서 정식 버전으로 제공됩니다.
Cloud TPU v5p
복잡한 대규모 파운데이션 모델을 빌드하기 위한 강력한 TPU
Cloud TPU v5p는 북미(미국 동부 리전)에서 정식 버전으로 제공됩니다
Cloud TPU v5e
중간 또는 대규모 학습 및 추론 워크로드에 적합한 비용 효율적이고 접근성이 뛰어난 TPU
Cloud TPU v5e는 북미(미국 중부/동부/남부/서부 지역), 유럽(서부 지역), 아시아(동남 지역)에서 정식 버전으로 제공됩니다
Cloud TPU 버전에 관한 추가 정보
일반적인 용도
vLLM 및 MaxDiffusion으로 AI 추론을 가속화하세요. vLLM은 대규모 언어 모델(LLM) 추론을 위해 높은 처리량과 짧은 지연 시간을 달성하도록 설계된 인기 있는 오픈소스 추론 엔진입니다. tpu-inference를 기반으로 하는 vLLM은 이제 처리량이 높고 지연 시간이 짧은 LLM 추론을 위한 vLLM TPU를 제공합니다. JAX와 Pytorch를 통합하여 더 넓은 모델 범위(Gemma, Llama, Qwen)와 향상된 기능을 제공합니다. MaxDiffusion은 Cloud TPU에서 확산 모델 추론을 최적화하여 높은 성능을 제공합니다.
Cloud TPU로 성능, 효율성, 가치 실현 시간을 극대화하세요. Cloud TPU 멀티슬라이스 학습을 통해 수천 개의 칩으로 확장하세요. ML Goodput Measurement로 대규모 ML 학습 생산성을 측정하고 개선합니다. 대규모 모델 학습을 위한 오픈소스 참조 배포인 MaxText 및 MaxDiffusion을 사용하여 빠르게 시작할 수 있습니다.
vLLM 및 MaxDiffusion으로 AI 추론을 가속화하세요. vLLM은 대규모 언어 모델(LLM) 추론을 위해 높은 처리량과 짧은 지연 시간을 달성하도록 설계된 인기 있는 오픈소스 추론 엔진입니다. tpu-inference를 기반으로 하는 vLLM은 이제 처리량이 높고 지연 시간이 짧은 LLM 추론을 위한 vLLM TPU를 제공합니다. JAX와 Pytorch를 통합하여 더 넓은 모델 범위(Gemma, Llama, Qwen)와 향상된 기능을 제공합니다. MaxDiffusion은 Cloud TPU에서 확산 모델 추론을 최적화하여 높은 성능을 제공합니다.
Cloud TPU로 성능, 효율성, 가치 실현 시간을 극대화하세요. Cloud TPU 멀티슬라이스 학습을 통해 수천 개의 칩으로 확장하세요. ML Goodput Measurement로 대규모 ML 학습 생산성을 측정하고 개선합니다. 대규모 모델 학습을 위한 오픈소스 참조 배포인 MaxText 및 MaxDiffusion을 사용하여 빠르게 시작할 수 있습니다.
JetStream 및 MaxDiffusion으로 AI 추론을 가속화하세요. JetStream은 대규모 언어 모델(LLM) 추론을 위해 특별히 설계된 새로운 추론 엔진입니다. JetStream은 Cloud TPU에서 LLM 추론을 위한 탁월한 처리량과 지연 시간을 제공하여 성능과 비용 효율성 면에서 큰 진전을 이루었습니다. MaxDiffusion은 Cloud TPU에 최적화된 확산 모델 구현 집합으로, Cloud TPU에서 고성능으로 확산 모델에 대한 추론을 쉽게 실행할 수 있도록 해줍니다.
Cloud TPU v5e는 최신 LLM 및 생성형 AI 모델 등 다양한 AI 워크로드에 경제적인 고성능 추론을 지원합니다. TPU v5e는 Cloud TPU v4에 비해 달러당 최대 2.5배 더 높은 처리량 성능과 최대 1.7배 빠른 속도를 제공합니다. 각 TPU v5e 칩은 int8 작업을 초당 최대 393조 개까지 제공하므로 복잡한 모델에서 빠르게 예측할 수 있습니다. TPU v5e 포드는 초당 최대 100,000조 int8 작업 또는 100페타옵스의 컴퓨팅 성능을 제공합니다.
JetStream 및 MaxDiffusion으로 AI 추론을 가속화하세요. JetStream은 대규모 언어 모델(LLM) 추론을 위해 특별히 설계된 새로운 추론 엔진입니다. JetStream은 Cloud TPU에서 LLM 추론을 위한 탁월한 처리량과 지연 시간을 제공하여 성능과 비용 효율성 면에서 큰 진전을 이루었습니다. MaxDiffusion은 Cloud TPU에 최적화된 확산 모델 구현 집합으로, Cloud TPU에서 고성능으로 확산 모델에 대한 추론을 쉽게 실행할 수 있도록 해줍니다.
Cloud TPU v5e는 최신 LLM 및 생성형 AI 모델 등 다양한 AI 워크로드에 경제적인 고성능 추론을 지원합니다. TPU v5e는 Cloud TPU v4에 비해 달러당 최대 2.5배 더 높은 처리량 성능과 최대 1.7배 빠른 속도를 제공합니다. 각 TPU v5e 칩은 int8 작업을 초당 최대 393조 개까지 제공하므로 복잡한 모델에서 빠르게 예측할 수 있습니다. TPU v5e 포드는 초당 최대 100,000조 int8 작업 또는 100페타옵스의 컴퓨팅 성능을 제공합니다.
강력한 AI/ML 플랫폼은 (i) 대규모 워크로드 학습 및 서빙을 위해 GPU를 지원하는 인프라 조정 (ii) 분산 컴퓨팅 및 데이터 처리 프레임워크와의 유연한 통합 (iii) 동일한 인프라에서 여러 팀을 지원하여 리소스 활용 극대화 등의 레이어를 고려합니다.
Cloud TPU의 성능과 GKE의 유연성과 확장성을 결합하여 이전보다 훨씬 쉽고 빠르게 머신러닝 모델을 빌드 및 배포할 수 있습니다. GKE에서 제공되는 Cloud TPU로 모든 워크로드를 위한 일관된 단일 운영 환경을 이용하여 자동화된 MLOps 파이프라인을 표준화할 수 있습니다.
강력한 AI/ML 플랫폼은 (i) 대규모 워크로드 학습 및 서빙을 위해 GPU를 지원하는 인프라 조정 (ii) 분산 컴퓨팅 및 데이터 처리 프레임워크와의 유연한 통합 (iii) 동일한 인프라에서 여러 팀을 지원하여 리소스 활용 극대화 등의 레이어를 고려합니다.
Cloud TPU의 성능과 GKE의 유연성과 확장성을 결합하여 이전보다 훨씬 쉽고 빠르게 머신러닝 모델을 빌드 및 배포할 수 있습니다. GKE에서 제공되는 Cloud TPU로 모든 워크로드를 위한 일관된 단일 운영 환경을 이용하여 자동화된 MLOps 파이프라인을 표준화할 수 있습니다.
AI 모델을 개발하는 가장 간단한 방법을 원하는 고객을 위해 지연 시간이 짧은 서빙과 고성능 학습을 위해 특별히 설계된 완전 관리형 인프라 기반의 AI 모델을 빌드하기 위한 엔드 투 엔드 플랫폼인 Vertex AI로 Cloud TPU v5e를 배포할 수 있습니다.
AI 모델을 개발하는 가장 간단한 방법을 원하는 고객을 위해 지연 시간이 짧은 서빙과 고성능 학습을 위해 특별히 설계된 완전 관리형 인프라 기반의 AI 모델을 빌드하기 위한 엔드 투 엔드 플랫폼인 Vertex AI로 Cloud TPU v5e를 배포할 수 있습니다.
가격 책정
| Cloud TPU 가격 책정 | 모든 Cloud TPU 가격 책정은 칩-시간 단위로 책정 | ||
|---|---|---|---|
| Cloud TPU 버전 | 평가판 가격(USD) | 1년 약정(USD) | 3년 약정(USD) |
Trillium | 시작 가격 $2.7000 칩-시간당 | 시작 가격 $1.8900 칩-시간당 | 시작 가격 $1.2200 칩-시간당 |
Cloud TPU v5p | 시작 가격 $4.2000 칩-시간당 | 시작 가격 $2.9400 칩-시간당 | 시작 가격 $1.8900 칩-시간당 |
Cloud TPU v5e | 시작 가격 $1.2000 칩-시간당 | 시작 가격 $0.8400 칩-시간당 | 시작 가격 $0.5400 칩-시간당 |
Cloud TPU 가격은 제품 및 리전에 따라 다릅니다.
Cloud TPU 가격 책정
모든 Cloud TPU 가격 책정은 칩-시간 단위로 책정
Trillium
Starting at
$2.7000
칩-시간당
Starting at
$1.8900
칩-시간당
Starting at
$1.2200
칩-시간당
Cloud TPU v5p
Starting at
$4.2000
칩-시간당
Starting at
$2.9400
칩-시간당
Starting at
$1.8900
칩-시간당
Cloud TPU v5e
Starting at
$1.2000
칩-시간당
Starting at
$0.8400
칩-시간당
Starting at
$0.5400
칩-시간당
Cloud TPU 가격은 제품 및 리전에 따라 다릅니다.