Google 커스텀 실리콘 발표: 추론 시대를 지원하도록 설계된 Ironwood TPU 및 새로운 Axion VM

Cloud 텐서 처리 장치(TPU)

Google Cloud TPU로 AI 개발 가속화

Cloud TPU는 학습에서 추론에 이르기까지 모든 AI 워크로드의 성능과 비용을 최적화합니다. TPU는 세계적 수준의 데이터 센터 인프라를 사용하여 높은 안정성, 가용성, 보안을 제공합니다.

TPU가 적합한지 잘 모르겠다면 머신러닝 워크로드를 실행하기 위해 Compute Engine 인스턴스에서 GPU 또는 CPU를 사용해야 하는 경우를 알아보세요.

개요

Tensor Processing Unit(TPU)이란 무엇인가요?

Google Cloud TPU는 AI 모델의 학습과 추론에 최적화된 커스텀 설계된 AI 가속기입니다. 에이전트, 코드 생성, 미디어 콘텐츠 생성, 합성 음성, 비전 서비스, 추천 엔진, 맞춤설정 모델 등 다양한 사용 사례에 적합합니다. TPU는 Gemini와 Google의 모든 AI 기반 애플리케이션(예: Google 검색, 포토, 지도)을 지원하며, 이 모든 애플리케이션은 10억 명이 넘는 사용자에게 서비스를 제공합니다.

Cloud TPU의 이점은 무엇인가요?

Cloud TPU는 학습, 미세 조정, 추론을 아우르는 다양한 AI 워크로드에 맞게 경제적으로 확장되도록 설계되었습니다. Cloud TPU는 PyTorch, JAX, TensorFlow와 같은 첨단 AI 프레임워크에서 워크로드 가속화를 위해 다기능성을 제공합니다. Google Kubernetes Engine(GKE)에서 Cloud TPU 통합을 통해 대규모 AI 워크로드를 원활하게 조정할 수 있습니다. 동적 워크로드 스케줄러를 활용하여 필요한 모든 가속기를 동시에 예약하여 워크로드의 확장성을 개선합니다. AI 모델을 개발하는 가장 간단한 방법을 찾는 고객은 완전 관리형 AI 플랫폼인 Vertex AI에서 Cloud TPU를 활용할 수도 있습니다.

Cloud TPU를 사용해야 하는 경우

Cloud TPU는 대규모 언어 모델(LLM) 빌드 등 많은 행렬 계산을 포함한 크고 복잡한 딥 러닝 모델 학습에 최적화되어 있습니다. Cloud TPU에는 추천 모델에 있는 임베딩을 사용하여 모델을 가속화하는 Dataflow 프로세서인 SparseCore도 있습니다. 다른 사용 사례로는 단백질 접힘 모델링 및 신약 개발과 같은 의료도 포함됩니다.

Cloud TPU와 GPU의 차이점은 무엇인가요?

GPU는 원래 컴퓨터 그래픽을 조작할 수 있도록 설계된 특수 프로세서입니다. 병렬 구조 덕분에 AI 워크로드에서 흔히 발견되는 대규모 데이터 블록을 처리하는 알고리즘에 적합합니다. 자세히 알아보기

TPU는 Google이 신경망에 맞게 설계한 애플리케이션 특정 통합 회로(ASIC)입니다. TPU에는 행렬 곱셈 단위(MXU) 및 독점 상호 연결 토폴로지와 같은 특수 기능이 있어 AI 학습 및 추론 속도를 높이는 데 적합합니다.

Cloud TPU 버전

Cloud TPU 버전	설명	사용 가능 여부
Ironwood	대규모 학습 및 추론을 위한 Google의 가장 강력하고 효율적인 TPU	Ironwood TPU는 2025년 4분기에 정식 버전으로 출시될 예정입니다
Trillium	6세대 TPU. 학습 및 추론을 위한 칩당 에너지 효율성 및 최대 컴퓨팅 성능 개선	Trillium은 북미(미국 동부 리전), 유럽(서부 리전), 아시아(동북부 리전)에서 정식 버전으로 제공됩니다.
Cloud TPU v5p	복잡한 대규모 파운데이션 모델을 빌드하기 위한 강력한 TPU	Cloud TPU v5p는 북미(미국 동부 리전)에서 정식 버전으로 제공됩니다
Cloud TPU v5e	중간 또는 대규모 학습 및 추론 워크로드에 적합한 비용 효율적이고 접근성이 뛰어난 TPU	Cloud TPU v5e는 북미(미국 중부/동부/남부/서부 지역), 유럽(서부 지역), 아시아(동남 지역)에서 정식 버전으로 제공됩니다

Cloud TPU 버전에 관한 추가 정보

Ironwood

설명

대규모 학습 및 추론을 위한 Google의 가장 강력하고 효율적인 TPU

사용 가능 여부

Ironwood TPU는 2025년 4분기에 정식 버전으로 출시될 예정입니다

Trillium

설명

6세대 TPU. 학습 및 추론을 위한 칩당 에너지 효율성 및 최대 컴퓨팅 성능 개선

사용 가능 여부

Trillium은 북미(미국 동부 리전), 유럽(서부 리전), 아시아(동북부 리전)에서 정식 버전으로 제공됩니다.

Cloud TPU v5p

설명

복잡한 대규모 파운데이션 모델을 빌드하기 위한 강력한 TPU

사용 가능 여부

Cloud TPU v5p는 북미(미국 동부 리전)에서 정식 버전으로 제공됩니다

Cloud TPU v5e

설명

중간 또는 대규모 학습 및 추론 워크로드에 적합한 비용 효율적이고 접근성이 뛰어난 TPU

사용 가능 여부

Cloud TPU v5e는 북미(미국 중부/동부/남부/서부 지역), 유럽(서부 지역), 아시아(동남 지역)에서 정식 버전으로 제공됩니다

Cloud TPU 버전에 관한 추가 정보

작동 방식

Google Cloud TPU의 놀라운 기능을 자세히 살펴보고, 모든 작업이 이루어지는 데이터 센터까지 들여다볼 수 있는 기회를 놓치지 마세요. 고객은 Cloud TPU를 사용하여 세계 최대 규모의 AI 워크로드 일부를 실행하며 이 성능은 단순한 칩 이상에서 비롯됩니다. 이 동영상에서 데이터 센터 네트워킹, 광학 회로 스위치, 수냉 시스템, 생체 인식 보안 인증 등 TPU 시스템의 구성요소를 살펴봅니다.

일반적인 용도

대규모 AI 학습 워크로드 실행

모델 확장 방법

LLM을 학습시키는 것은 마치 연금술처럼 느껴질 수 있지만, 모델의 성능을 이해하고 최적화하는 것은 어렵지 않습니다. 이 책은 TPU에서 언어 모델을 확장하는 과학, 즉 TPU가 작동하는 방식과 서로 통신하는 방식, 실제 하드웨어에서 LLM이 실행되는 방식, 대규모로 효율적으로 실행되도록 학습 및 추론 중에 모델을 병렬화하는 방법을 설명합니다.

방법

모델 확장 방법

LLM을 학습시키는 것은 마치 연금술처럼 느껴질 수 있지만, 모델의 성능을 이해하고 최적화하는 것은 어렵지 않습니다. 이 책은 TPU에서 언어 모델을 확장하는 과학, 즉 TPU가 작동하는 방식과 서로 통신하는 방식, 실제 하드웨어에서 LLM이 실행되는 방식, 대규모로 효율적으로 실행되도록 학습 및 추론 중에 모델을 병렬화하는 방법을 설명합니다.

추가 리소스

강력하고 확장 가능하며 효율적인 AI 학습

Cloud TPU로 성능, 효율성, 가치 실현 시간을 극대화하세요. Cloud TPU 멀티슬라이스 학습을 통해 수천 개의 칩으로 확장하세요. ML Goodput Measurement로 대규모 ML 학습 생산성을 측정하고 개선합니다. 대규모 모델 학습을 위한 오픈소스 참조 배포인 MaxText 및 MaxDiffusion을 사용하여 빠르게 시작할 수 있습니다.

기본 AI 모델 미세 조정

Pytorch/XLA를 사용하여 애플리케이션에 맞게 LLM 조정

사용 사례를 나타내는 자체 학습 데이터를 활용하여 기반 모델을 효율적으로 미세 조정합니다. Cloud TPU v5e는 Cloud TPU v4에 비해 달러당 최대 1.9배 더 높은 LLM 미세 조정 성능을 제공합니다.

추가 리소스

Pytorch/XLA를 사용하여 애플리케이션에 맞게 LLM 조정

사용 사례를 나타내는 자체 학습 데이터를 활용하여 기반 모델을 효율적으로 미세 조정합니다. Cloud TPU v5e는 Cloud TPU v4에 비해 달러당 최대 1.9배 더 높은 LLM 미세 조정 성능을 제공합니다.

대규모 AI 추론 워크로드 제공

확장 가능하고 비용 효율적인 고성능 추론

vLLM 및 MaxDiffusion으로 AI 추론을 가속화하세요. vLLM은 대규모 언어 모델(LLM) 추론을 위해 높은 처리량과 짧은 지연 시간을 달성하도록 설계된 인기 있는 오픈소스 추론 엔진입니다. tpu-inference를 기반으로 하는 vLLM은 이제 처리량이 높고 지연 시간이 짧은 LLM 추론을 위한 vLLM TPU를 제공합니다. JAX와 Pytorch를 통합하여 더 넓은 모델 범위(Gemma, Llama, Qwen)와 향상된 기능을 제공합니다. MaxDiffusion은 Cloud TPU에서 확산 모델 추론을 최적화하여 높은 성능을 제공합니다.

vLLM과 함께 GKE에서 TPU Trillium을 사용하여 LLM 서빙

방법

확장 가능하고 비용 효율적인 고성능 추론

vLLM 및 MaxDiffusion으로 AI 추론을 가속화하세요. vLLM은 대규모 언어 모델(LLM) 추론을 위해 높은 처리량과 짧은 지연 시간을 달성하도록 설계된 인기 있는 오픈소스 추론 엔진입니다. tpu-inference를 기반으로 하는 vLLM은 이제 처리량이 높고 지연 시간이 짧은 LLM 추론을 위한 vLLM TPU를 제공합니다. JAX와 Pytorch를 통합하여 더 넓은 모델 범위(Gemma, Llama, Qwen)와 향상된 기능을 제공합니다. MaxDiffusion은 Cloud TPU에서 확산 모델 추론을 최적화하여 높은 성능을 제공합니다.

vLLM과 함께 GKE에서 TPU Trillium을 사용하여 LLM 서빙

추가 리소스

확장 가능한 AI 인프라로 비용 대비 성능 극대화

Cloud TPU v5e는 최신 LLM 및 생성형 AI 모델 등 다양한 AI 워크로드에 경제적인 고성능 추론을 지원합니다. TPU v5e는 Cloud TPU v4에 비해 달러당 최대 2.5배 더 높은 처리량 성능과 최대 1.7배 빠른 속도를 제공합니다. 각 TPU v5e 칩은 int8 작업을 초당 최대 393조 개까지 제공하므로 복잡한 모델에서 빠르게 예측할 수 있습니다. TPU v5e 포드는 초당 최대 100,000조 int8 작업 또는 100페타옵스의 컴퓨팅 성능을 제공합니다.

GKE의 Cloud TPU

플랫폼 조정으로 최적화된 AI 워크로드 실행

강력한 AI/ML 플랫폼은 (i) 대규모 워크로드 학습 및 서빙을 위해 GPU를 지원하는 인프라 조정 (ii) 분산 컴퓨팅 및 데이터 처리 프레임워크와의 유연한 통합 (iii) 동일한 인프라에서 여러 팀을 지원하여 리소스 활용 극대화 등의 레이어를 고려합니다.

GKE

방법

플랫폼 조정으로 최적화된 AI 워크로드 실행

강력한 AI/ML 플랫폼은 (i) 대규모 워크로드 학습 및 서빙을 위해 GPU를 지원하는 인프라 조정 (ii) 분산 컴퓨팅 및 데이터 처리 프레임워크와의 유연한 통합 (iii) 동일한 인프라에서 여러 팀을 지원하여 리소스 활용 극대화 등의 레이어를 고려합니다.

GKE

추가 리소스

GKE를 통한 간편한 확장

Cloud TPU의 성능과 GKE의 유연성과 확장성을 결합하여 이전보다 훨씬 쉽고 빠르게 머신러닝 모델을 빌드 및 배포할 수 있습니다. GKE에서 제공되는 Cloud TPU로 모든 워크로드를 위한 일관된 단일 운영 환경을 이용하여 자동화된 MLOps 파이프라인을 표준화할 수 있습니다.

Vertex AI의 Cloud TPU

Cloud TPU를 사용한 Vertex AI Training and Predictions

AI 모델을 개발하는 가장 간단한 방법을 원하는 고객을 위해 지연 시간이 짧은 서빙과 고성능 학습을 위해 특별히 설계된 완전 관리형 인프라 기반의 AI 모델을 빌드하기 위한 엔드 투 엔드 플랫폼인 Vertex AI로 Cloud TPU v5e를 배포할 수 있습니다.

추가 리소스

Cloud TPU를 사용한 Vertex AI Training and Predictions

AI 모델을 개발하는 가장 간단한 방법을 원하는 고객을 위해 지연 시간이 짧은 서빙과 고성능 학습을 위해 특별히 설계된 완전 관리형 인프라 기반의 AI 모델을 빌드하기 위한 엔드 투 엔드 플랫폼인 Vertex AI로 Cloud TPU v5e를 배포할 수 있습니다.

가격 책정

Cloud TPU 가격 책정	모든 Cloud TPU 가격 책정은 칩-시간 단위로 책정
Cloud TPU 버전	평가판 가격(USD)	1년 약정(USD)	3년 약정(USD)
Trillium	시작 가격 $2.7000 칩-시간당	시작 가격 $1.8900 칩-시간당	시작 가격 $1.2200 칩-시간당
Cloud TPU v5p	시작 가격 $4.2000 칩-시간당	시작 가격 $2.9400 칩-시간당	시작 가격 $1.8900 칩-시간당
⁠Cloud TPU v5e	시작 가격 $1.2000 칩-시간당	시작 가격 $0.8400 칩-시간당	시작 가격 $0.5400 칩-시간당

Cloud TPU 가격은 제품 및 리전에 따라 다릅니다.

Cloud TPU 가격 책정

모든 Cloud TPU 가격 책정은 칩-시간 단위로 책정

Trillium

평가판 가격(USD)

Starting at

$2.7000

칩-시간당

1년 약정(USD)

Starting at

$1.8900

칩-시간당

3년 약정(USD)

Starting at

$1.2200

칩-시간당

Cloud TPU v5p

평가판 가격(USD)

Starting at

$4.2000

칩-시간당

1년 약정(USD)

Starting at

$2.9400

칩-시간당

3년 약정(USD)

Starting at

$1.8900

칩-시간당

⁠Cloud TPU v5e

평가판 가격(USD)

Starting at

$1.2000

칩-시간당

1년 약정(USD)

Starting at

$0.8400

칩-시간당

3년 약정(USD)

Starting at

$0.5400

칩-시간당

Cloud TPU 가격은 제품 및 리전에 따라 다릅니다.

가격 계산기

리전별 가격 및 수수료를 포함한 월별 Cloud TPU 비용을 예측해 볼 수 있습니다.

커스텀 견적

영업팀에 문의하여 조직에 대한 커스텀 견적을 받아 보세요.

Cloud 텐서 처리 장치(TPU)

Google Cloud TPU로 AI 개발 가속화

제품 특징

Tensor Processing Unit(TPU)이란 무엇인가요?

Cloud TPU의 이점은 무엇인가요?

Cloud TPU를 사용해야 하는 경우

Cloud TPU와 GPU의 차이점은 무엇인가요?

대규모 AI 학습 워크로드 실행

모델 확장 방법

강력하고 확장 가능하며 효율적인 AI 학습

방법

모델 확장 방법

추가 리소스

강력하고 확장 가능하며 효율적인 AI 학습

기본 AI 모델 미세 조정

Pytorch/XLA를 사용하여 애플리케이션에 맞게 LLM 조정

추가 리소스

Pytorch/XLA를 사용하여 애플리케이션에 맞게 LLM 조정

대규모 AI 추론 워크로드 제공

확장 가능하고 비용 효율적인 고성능 추론

확장 가능한 AI 인프라로 비용 대비 성능 극대화

방법

확장 가능하고 비용 효율적인 고성능 추론

추가 리소스

확장 가능한 AI 인프라로 비용 대비 성능 극대화

GKE의 Cloud TPU

플랫폼 조정으로 최적화된 AI 워크로드 실행

GKE를 통한 간편한 확장

방법

플랫폼 조정으로 최적화된 AI 워크로드 실행

추가 리소스

GKE를 통한 간편한 확장

Vertex AI의 Cloud TPU

Cloud TPU를 사용한 Vertex AI Training and Predictions

추가 리소스

Cloud TPU를 사용한 Vertex AI Training and Predictions

가격 계산기

커스텀 견적

개념 증명 시작

Cloud TPU 무료로 사용해 보기

Cloud TPU 사용에 대한 빠른 소개 보기

Cloud TPU VM에서 TensorFlow 실행

Cloud TPU VM에서 JAX 실행

Cloud TPU VM에서 PyTorch 실행