기사 읽기: 8세대 TPU 내부: 아키텍처 심층 분석

Tensor Processing Unit(TPU)

차세대 AI를 위해 설계됨

자율 추론 에이전트를 구동하기 위해 학습, 추론, 강화 학습 워크로드를 빌드, 최적화, 확장합니다.

개요

Tensor Processing Unit(TPU)의 10년

TPU는 에이전트, 코드 생성, 대규모 언어 모델, 미디어 콘텐츠 생성, 합성 음성, 비전 서비스, 추천 엔진, 맞춤설정 모델 등 AI 워크로드에 특화된 맞춤 설계된 가속기입니다. TPU는 Gemini와 Google의 모든 AI 기반 애플리케이션(예: Google 검색, 포토, 지도)을 지원하며, 이 모든 애플리케이션은 10억 명이 넘는 사용자에게 서비스를 제공합니다.

에이전트 AI에 특화된 빌드

에이전트 AI로 전환하려면 다단계 추론과 지속적인 강화 학습이 가능한 인프라가 필요합니다. TPU는 TPU 8i를 통해 확장된 온칩 SRAM을 활용하여 대규모 KV 캐시를 완전히 실리콘에 호스팅함으로써 추론 '메모리 벽'을 허물었습니다. 이 아키텍처는 통신 작업을 오프로드하는 SparseCore 엔진과 결합되어 코어 유휴 시간을 줄입니다. 그 결과 복잡한 추론 루프를 지원하는 예측 가능한 저지연 성능이 구현됩니다.

성능 저하 없는 우수한 성능

선도적인 모델의 학습 타임라인을 단축하여 배포 시간을 줄이세요. Cloud TPU는 굿풋을 극대화하여 거의 모든 컴퓨팅 주기가 능동적 학습에 사용되도록 보장합니다. 고속 칩 간 상호 연결, 광회선 교환, Virgo 네트워크가 지원하므로 가속기는 매우 안정적인 통합 시스템으로 작동합니다.

지속 가능한 경제를 대규모로 실현

TPU는 AI의 컴퓨팅 요구사항에 집중하여 가치와 전력 소비를 개선하고 다목적 아키텍처에서 발견되는 운영 오버헤드를 제거하도록 설계되었습니다. 통합 전력 관리는 실시간 요청량에 맞게 동적으로 조정되어 높은 와트당 성능을 제공하고 복잡한 AI 워크로드를 지속 가능하게 지원합니다.

개방적이고 유연하며 신뢰할 수 있는 운영

친숙한 라이브러리와 도구를 사용하여 개방형 생태계를 기반으로 빌드합니다. Cloud TPU는 PyTorch 및 JAX를 기본적으로 고성능으로 지원하며 빠른 추론을 위한 vLLM 엔진을 지원합니다. Google Kubernetes Engine(GKE)을 사용하면 전역 클러스터 전반에서 이러한 배포를 안정적으로 관리하고 확장할 수 있습니다.

Cloud TPU 버전

Cloud TPU 버전	설명	가용성
TPU 8i	TPU 8i는 사후 학습 및 추론에 최적화되어 있으며, 대규모 MoE 모델의 지연 시간이 짧은 추론을 위해 이전 세대 대비 달러당 성능이 80% 향상되었습니다.	출시 예정
TPU 8t	TPU 8t는 단일 슈퍼포드에서 9,600개의 칩 규모로 대규모 사전 학습 및 임베딩 집약적 워크로드를 위해 빌드되었으며, 대규모 학습을 위해 Ironwood 대비 달러당 2.7배 더 높은 성능을 제공합니다.	출시 예정
Ironwood	대규모 학습 및 추론을 위해 설계된 7세대 에너지 효율적인 TPU입니다. 포드당 9,216개의 수랭식 칩을 탑재하고 있으며, 42.5엑사플롭의 성능과 Trillium 대비 칩당 4배 더 나은 성능을 제공합니다.	Ironwood는 북미(중부) 및 유럽(서부 지역)에서 정식 버전으로 제공됩니다.
Trillium	학습 및 추론을 위한 에너지 효율성과 최대 컴퓨팅 성능이 개선된 6세대 TPU입니다. 이전 세대인 TPU v5e에 비해 에너지 효율이 67% 더 높고 칩당 최대 컴퓨팅 성능이 4.7배 더 높습니다.	Trillium은 북미(미국 동부 리전), 유럽(서부 리전), 아시아(동북부 리전)에서 정식 버전으로 제공됩니다.

Cloud TPU 버전에 관한 추가 정보

TPU 8i

설명

TPU 8i는 사후 학습 및 추론에 최적화되어 있으며, 대규모 MoE 모델의 지연 시간이 짧은 추론을 위해 이전 세대 대비 달러당 성능이 80% 향상되었습니다.

가용성

출시 예정

TPU 8t

설명

TPU 8t는 단일 슈퍼포드에서 9,600개의 칩 규모로 대규모 사전 학습 및 임베딩 집약적 워크로드를 위해 빌드되었으며, 대규모 학습을 위해 Ironwood 대비 달러당 2.7배 더 높은 성능을 제공합니다.

가용성

출시 예정

Ironwood

설명

대규모 학습 및 추론을 위해 설계된 7세대 에너지 효율적인 TPU입니다. 포드당 9,216개의 수랭식 칩을 탑재하고 있으며, 42.5엑사플롭의 성능과 Trillium 대비 칩당 4배 더 나은 성능을 제공합니다.

가용성

Ironwood는 북미(중부) 및 유럽(서부 지역)에서 정식 버전으로 제공됩니다.

Trillium

설명

학습 및 추론을 위한 에너지 효율성과 최대 컴퓨팅 성능이 개선된 6세대 TPU입니다. 이전 세대인 TPU v5e에 비해 에너지 효율이 67% 더 높고 칩당 최대 컴퓨팅 성능이 4.7배 더 높습니다.

가용성

Trillium은 북미(미국 동부 리전), 유럽(서부 리전), 아시아(동북부 리전)에서 정식 버전으로 제공됩니다.

Cloud TPU 버전에 관한 추가 정보

작동 방식

Google Cloud TPU의 놀라운 기능을 자세히 살펴보고, 데이터 센터까지 들여다볼 수 있는 기회를 놓치지 마세요 . 고객은 Cloud TPU를 사용하여 대규모 AI 워크로드 일부를 실행하며 이 용량은 단순한 칩 이상에서 비롯됩니다. 이 동영상에서 데이터 센터 네트워킹, 광학 회로 스위치, 수냉 시스템, 생체 인식 보안 인증 등 TPU 시스템의 구성요소를 살펴봅니다.

일반적인 용도

대규모 AI 사전 학습 워크로드 실행

프런티어 모델의 TTM(time to market) 단축

대규모 파운데이션 모델의 사전 학습 기간을 단축합니다. TPU 8t는 단일 포드 내에서 고성능 컴퓨팅 성능을 제공하며 Virgo 네트워크를 통해 확장됩니다. 빠른 스토리지 액세스와 Axion 기반 NUMA 격리를 결합한 이 아키텍처는 높은 굿풋을 달성하여 데이터 전송 또는 하드웨어 재설정 중에 유휴 상태가 되는 대신 컴퓨팅 주기가 활성 모델 빌드에 사용되도록 보장합니다.

추가 리소스

프런티어 모델의 TTM(time to market) 단축

대규모 파운데이션 모델의 사전 학습 기간을 단축합니다. TPU 8t는 단일 포드 내에서 고성능 컴퓨팅 성능을 제공하며 Virgo 네트워크를 통해 확장됩니다. 빠른 스토리지 액세스와 Axion 기반 NUMA 격리를 결합한 이 아키텍처는 높은 굿풋을 달성하여 데이터 전송 또는 하드웨어 재설정 중에 유휴 상태가 되는 대신 컴퓨팅 주기가 활성 모델 빌드에 사용되도록 보장합니다.

효율적인 학습 후 및 강화 학습

강화 학습 워크로드를 효율적으로 확장

집중적인 사후 학습 워크플로를 통해 기본 모델을 지능형 에이전트로 빌드합니다. 8세대 TPU 시스템은 연속적인 강화 학습 시도를 빠르게 처리하여 이전 세대에서 흔히 발생하던 주기 지연 없이 최적의 추론 경로에 보상을 제공합니다. 이를 통해 월드 모델을 효율적으로 파인 튜닝할 수 있으므로 에이전트는 실제 환경에서 실행하기 전에 시뮬레이션된 환경에서 추론을 개선할 수 있습니다.

추가 리소스

강화 학습 워크로드를 효율적으로 확장

집중적인 사후 학습 워크플로를 통해 기본 모델을 지능형 에이전트로 빌드합니다. 8세대 TPU 시스템은 연속적인 강화 학습 시도를 빠르게 처리하여 이전 세대에서 흔히 발생하던 주기 지연 없이 최적의 추론 경로에 보상을 제공합니다. 이를 통해 월드 모델을 효율적으로 파인 튜닝할 수 있으므로 에이전트는 실제 환경에서 실행하기 전에 시뮬레이션된 환경에서 추론을 개선할 수 있습니다.

지연 시간이 짧은 대규모 AI 추론 워크로드

경제적인 고성능 추론

추론 메모리 벽을 허물어 보세요. TPU 8i는 온칩 SRAM과 고대역폭 메모리를 확장하여 고용량 KV 캐시를 완전히 실리콘에 호스팅합니다. SparseCore-Collectives Acceleration Engine(SC-CAE)을 사용하여 전역 통신 작업을 오프로드함으로써 이 아키텍처는 칩 내 지연 시간을 크게 줄여 기본 컴퓨팅 코어가 순수한 저지연 토큰 생성에 집중할 수 있도록 합니다.

추가 리소스

경제적인 고성능 추론

추론 메모리 벽을 허물어 보세요. TPU 8i는 온칩 SRAM과 고대역폭 메모리를 확장하여 고용량 KV 캐시를 완전히 실리콘에 호스팅합니다. SparseCore-Collectives Acceleration Engine(SC-CAE)을 사용하여 전역 통신 작업을 오프로드함으로써 이 아키텍처는 칩 내 지연 시간을 크게 줄여 기본 컴퓨팅 코어가 순수한 저지연 토큰 생성에 집중할 수 있도록 합니다.

개념 증명 시작

Cloud TPU 무료로 사용해 보기

Cloud TPU 사용에 대한 빠른 소개 보기

TPU에서 PyTorch 실행

TPU에서 JAX 실행

TPU에서 vLLM을 사용하여 서빙

비즈니스 사례

자율 추론 에이전트

TPU는 실시간 코딩 어시스턴트, 자율 고객 서비스, 보안 운영을 위한 연속적인 다단계 추론 루프를 실행하는 데 필요한 메모리 대역폭과 짧은 지연 시간 추론을 제공합니다.

파운데이션 모델 및 멀티모달 생성형 AI

연속적인 고처리량 컴퓨팅을 제공하는 TPU는 텍스트, 이미지, 오디오, 동영상 모달리티 전반에서 대규모 파운데이션 모델을 효율적으로 빌드하고 서빙합니다.

정밀 과학 및 의료

TPU는 복잡한 행렬 중심의 수학을 관리하여 구조 생물학, 유전체 염기서열 분석, 신약 개발을 위한 컴퓨팅 집약적인 시뮬레이션을 가속화합니다.

물리적 AI

실제 세계와 상호작용하고 이에 적응하는 물리적 에이전트를 빌드합니다. 합성 데이터와 실제 데이터를 사용하여 로봇, 자율 에이전트, 산업용 기계를 더 빠르고 효율적으로 시뮬레이션하고 학습시킬 수 있습니다.

Tensor Processing Unit(TPU)

차세대 AI를 위해 설계됨

제품 특징

Tensor Processing Unit(TPU)의 10년

에이전트 AI에 특화된 빌드

성능 저하 없는 우수한 성능

지속 가능한 경제를 대규모로 실현

개방적이고 유연하며 신뢰할 수 있는 운영

대규모 AI 사전 학습 워크로드 실행

프런티어 모델의 TTM(time to market) 단축

추가 리소스

프런티어 모델의 TTM(time to market) 단축

효율적인 학습 후 및 강화 학습

강화 학습 워크로드를 효율적으로 확장

추가 리소스

강화 학습 워크로드를 효율적으로 확장

지연 시간이 짧은 대규모 AI 추론 워크로드

경제적인 고성능 추론

추가 리소스

경제적인 고성능 추론

개념 증명 시작

Cloud TPU 무료로 사용해 보기

Cloud TPU 사용에 대한 빠른 소개 보기

TPU에서 PyTorch 실행

TPU에서 JAX 실행

TPU에서 vLLM을 사용하여 서빙

관련 콘텐츠