갤러리 이슈박스, 최근방문 갤러리
연관 갤러리
프로그래밍 갤러리 타 갤러리(0)
이 갤러리가 연관 갤러리로 추가한 갤러리
추가한 갤러리가 없습니다.
0/0
타 갤러리 프로그래밍 갤러리(0)
이 갤러리를 연관 갤러리로 추가한 갤러리
0/0
개념글 리스트
1/3
- 한 게임에 12년을 갈아넣은 미친 개발자 이야기 flotsam
- 지난 30년간 중국이 만들어낸 혁신들 ㅇㅇ
- 싱글벙글 관광객 근황 ㅇㅇ
- 싱글벙글 어제자 AI에 올인 선언 한 트럼프.jpg 그린머이
- 키 큰 여자연예인들한테 키 속였다고 하는게 웃김..jpg 도다해
- 오세훈 한강버스…“출근용이면 반차 써야” 고닉팠
- 백종원 남극의셰프... 해동 논란....jpg 보추장아찌
- 싱글벙글 업소에서 마사지 받는.manhwa XIII
- 한 게임에 인생 전체를 갈아넣은 개발자 ㅇㅇ
- 싱글벙글 가불기 걸린 남극의 셰프 ㅇㅇ
- 나한테 관심 있는 줄…혼탕 사우나서 10대 남성 그곳 만진 30대 여성 감돌
- 지금 반응 안좋은 <354 삼오사> 한-일 관계 발언.jpg ㅇㅇ
- 삿포로 MBC 라멘을 찾아서.jpg dd
- 미국 애국보수 MAGA 친구들에게 한마디 ㅇㅇ
- 일본 사슴으로 유명한 나라 근황 (다카이치 총리 고향) 무한탐구
엔비디아 주가 6% 이상 급락, 젠슨황 학폭 입갤 ㅋㅋ
ㅋㅋㅋㅋㅋㅋ - dc official App- 구글 TPU 개발자가 엔비디아 주가가 왜떨어지는지 모르겠다함ㅋㅋㅋ참고로 아미르 아즈단 구글 TPU 개발관련 딥마인드 연구원임ㅋㅋㅋ- 엔비디아 한때 6% 급락...딥시크 쇼크 이후 최대낙폭- 메타, 구글 AI 칩 투자 논의에 엔비디아 주가 6% 이상 급락- 엔비디아 공식적으로 구글 언급 ㄷㄷㄷㄷ젠슨은 구글이 여전히 엔비디아의 가장 큰 고객 중 하나라는 사실을 세상에 알리면서, 구글의 TPU를 귀여운 작은 칩이라고 부르기도 했다함- AI] 구글 TPU 구조 완벽 가이드구글 TPU 구조 완벽 가이드구글 TPU(Tensor Processing Unit)는 AI 연산을 위해 처음부터 설계된 맞춤형 ASIC(Application-Specific Integrated Circuit)로, 기존 CPU/GPU와는 완전히 다른 아키텍처를 가지고 있습니다. TPU의 핵심은 시스톨릭 어레이(Systolic Array) 구조와 고대역폭 메모리(HBM)의 결합으로, 행렬 연산에 극도로 최적화되어 있으며, 2015년 처음 배포된 이후 매 세대마다 성능과 효율성이 급격히 향상되고 있습니다.TPU의 설계 철학과 기원맞춤형 ASIC 개발의 필요성구글은 2013년경 음성 검색, 자동 번역, 추천 시스템 등 딥러닝 기반 서비스의 폭발적 확장으로 인해 CPU와 GPU만으로는 감당할 수 없는 연산 수요에 직면했습니다. 당시 구글은 GPU, FPGA, 또는 맞춤형 ASIC 중 어느 것을 선택할지 고민했지만, 결국 신경망 연산에 특화된 전용 하드웨어의 필요성을 인식하고 TPU 개발에 착수했습니다. 2015년부터 구글 데이터센터에 첫 번째 TPU가 배포되었으며, 현재는 Gemini, Veo, PaLM 같은 최신 AI 모델 학습에 필수적인 역할을 하고 있습니다.TPU의 설계는 두 가지 핵심 원칙을 따릅니다. 첫째는 극한의 에너지 효율성으로, AI 연산에 불필요한 기능을 모두 제거하고 행렬 곱셈 연산만을 초고속으로 처리하는 데 집중했습니다. 둘째는 대규모 클러스터 환경에서의 확장성으로, 단일 칩에서 수만 개 칩까지 유기적으로 확장할 수 있도록 설계되었습니다.Google TPU Generation Evolution: Key Performance Metrics Comparison (v1 to v6e)TPU 칩 내부 구조단일 칩의 구성 요소TPU v4 기준으로 단일 칩에는 2개의 TensorCore가 포함되어 있으며(추론 특화 모델은 1개), 각 TensorCore는 행렬 곱셈에 특화된 여러 연산 유닛과 다층 메모리 구조로 이루어져 있습니다. 구체적인 구성은 다음과 같습니다:Matrix Multiply Unit (MXU): 이것이 TPU의 가장 핵심적인 컴포넌트로, 128x128 크기의 시스톨릭 어레이로 구성되어 있습니다. TPU v4의 경우 한 사이클에 16,384개의 곱셈-누산(MAC: Multiply-Accumulate) 연산을 동시에 수행할 수 있습니다. 데이터가 물결처럼 흘러가며 처리되는 구조로, 심장이 혈액을 박동으로 퍼뜨리는 것처럼 이름이 붙여졌습니다.Vector Processing Unit (VPU): MXU에 의한 행렬 곱셈 결과에 대해 활성화 함수(ReLU, Softmax 등) 적용, 원소 단위 연산, 감소 연산 등 일반적인 벡터 연산을 수행합니다. 128개의 레인(lane)을 가지고 있으며 각 레인마다 16개의 ALU를 포함합니다.Scalar Unit: 제어 흐름, 메모리 주소 계산, 스칼라 연산 등 전체 TensorCore의 제어와 관리 기능을 담당합니다.메모리 계층 구조TPU v4 Chip Internal Architecture: Two TensorCores with Systolic Arrays, Memory HierarchyTPU의 메모리 계층은 CPU나 GPU와는 완전히 다른 방식으로 설계되었습니다.각 TensorCore는 다음과 같은 계층적 메모리 구조를 가집니다:Vector Memory (VMEM, 32MiB): 각 TensorCore의 로컬 메모리로, HBM에서 가져온 데이터를 처리 대기 상태로 보관합니다. 이 메모리는 벡터 연산 전용입니다.Scalar Memory (SMEM, 10MiB): 스칼라 연산 결과와 제어 정보를 저장합니다.Common Memory (CMEM, 128MiB): 두 TensorCore가 공유하는 온칩 메모리로, 대규모 작업 데이터와 중간 결과를 임시 저장합니다.High Bandwidth Memory (HBM, 32GB for v4): 칩의 외부 메모리로서 가장 큰 용량을 가지고 있으며, 1.2TB/s의 매우 높은 대역폭을 제공합니다. 이 HBM은 GPU 메모리와는 다르게 3D 스택 구조로 DRAM 칩을 수직으로 쌓고 TSV(Through-Silicon Via)로 고속 연결하여 뛰어난 성능을 달성합니다.온칩 메모리가 GPU보다 훨씬 크다는 것이 TPU의 특징입니다. 이는 반복적인 메모리 접근으로 인한 병목을 줄이고, 대신 한 번 로드한 데이터를 여러 번 재사용하도록 설계되었기 때문입니다.시스톨릭 어레이: TPU의 심장시스톨릭 어레이의 작동 원리시스톨릭 어레이는 TPU의 가장 혁신적인 설계로, CPU나 GPU의 캐시 기반 구조와는 완전히 다릅니다. 이 구조에서는 인접한 처리 요소(PE: Processing Element)들이 직렬로 연결되어 있고, 각 PE는 곱셈-누산 연산을 수행한 후 결과를 다음 PE로 전달합니다.예를 들어, 2x2 시스톨릭 어레이에서 행렬 곱셈을 수행한다면:시간 단계 1: 첫 번째 행렬의 원소와 두 번째 행렬의 원소가 각각의 PE에 입력되어 곱셈 수행시간 단계 2: 곱셈 결과는 누산되고, 다음 원소들이 입력되어 추가 연산이 과정이 파이프라인 형태로 반복: 각 사이클마다 모든 PE가 동시에 연산을 수행핵심적인 특징은 데이터가 메모리에서 읽어오지 않고, PE들 사이에서만 흘러간다는 점입니다. 이로 인해 메모리 접근 횟수가 극적으로 감소하고, 전력 소비도 극적으로 줄어듭니다. CPU는 한 사이클에 수 개의 연산만 수행하지만, TPU의 시스톨릭 어레이는 한 사이클에 수백만 개의 연산을 동시에 수행할 수 있습니다.시스톨릭 어레이와 GPU의 구조적 차이GPU의 연산 구조는 각 코어가 레지스터에서 데이터를 읽어와 연산을 수행하는 방식입니다. 메모리 계층(L1 캐시, L2 캐시, 글로벌 메모리)이 복잡하고, 예측 불가능한 메모리 접근 패턴을 처리하기 위해 캐시를 갖추고 있습니다. 반면 TPU는 메모리 접근을 최소화하고 데이터 재사용을 극대화하도록 설계되었습니다. TPU v4의 MXU가 한 사이클에 16,384개의 MAC 연산을 수행할 수 있는 이유는 이러한 시스톨릭 어레이 구조 때문입니다.TPU 세대별 진화1세대 TPU (v1, 2015): 추론 전용첫 번째 TPU는 28nm 공정으로 제작되었으며, 700MHz의 클럭 속도에서 작동했습니다. 8비트 정수 연산만 지원했고, 65,536개의 8비트 정수 곱셈기를 포함했습니다. 메모리는 8GiB의 DDR3 SDRAM만 가능했고 대역폭이 34GB/s에 불과했습니다. TPU v1은 순수 추론을 위해 설계되었으며, 당시 CPU와 GPU 대비 15-30배 높은 성능과 30-80배 높은 전력 효율을 자랑했습니다.2세대 TPU (v2, 2017): 훈련 지원 시작TPU v2는 **16GiB의 고대역폭 메모리(HBM)**를 처음 도입하여 대역폭을 600GB/s로 획기적으로 향상시켰습니다. 또한 bfloat16 형식을 처음 지원하면서 훈련 워크로드에도 사용 가능해졌습니다. 성능은 45TFLOPs으로 v1의 약 500배 향상되었습니다.3세대 TPU (v3, 2018): 확장성 강화TPU v3는 메모리를 32GiB로 확대하고 대역폭을 900GB/s로 증가시켰습니다. 제조 공정은 여전히 28nm이었지만, 클럭 속도를 940MHz로 증가시켰습니다.4세대 TPU (v4, 2021): 광학 회로 교환 도입TPU v4는 획기적인 변화를 가져왔습니다. 처음으로 7nm 공정을 적용했으며, 광학 회로 교환(Optical Circuit Switching, OCS) 기술을 도입하여 칩 간 연결을 혁신했습니다. 클럭 속도는 1050MHz로 증가했으며, 3D 토러스 네트워크 토폴로지를 지원했습니다. 성능은 275TFLOPs로 향상되었습니다.5세대 TPU (v5, 2023): 이중 라인업TPU v5는 두 가지 버전으로 나뉘었습니다:TPU v5e: 비용 효율성에 중점. 칩당 197TFLOPs (bf16), 393TOPs (int8), 16GB HBM (800GB/s 대역폭)TPU v5p: 성능 극대화. 칩당 459TFLOPs, 95GB HBM (2,765GB/s 대역폭)TPU v5p는 단일 팟에 8,960개 칩을 포함할 수 있으며, 이는 TPU v4의 4,096개보다 훨씬 큰 규모입니다.6세대 TPU (v6e/Trillium, 2024): 최고 성능Trillium이라 불리는 TPU v6e는 2024년 5월 공개되었으며, 4.7배의 성능 향상을 달성했습니다. 칩당 918TFLOPs (bf16), **1,836TOPs (int8)**의 경이로운 성능을 보여줍니다. HBM 용량과 대역폭을 각각 2배로 증가시켰으며(32GB, 1,600GB/s), 3nm 공정을 사용했습니다.Trillium의 가장 중요한 특징은 에너지 효율성이 67% 향상되었다는 점으로, 이는 대규모 데이터센터 운영에 결정적인 영향을 미칩니다. 또한 달러당 학습 성능이 2.5배, 달러당 추론 성능이 1.4배 개선되었습니다.TPU 시스템의 확장성 구조TPU System Hierarchy: Scalability from Single Chip to Supercomputer-Scale Deployment계층적 확장 구조TPU는 단일 칩에서 건물 규모의 슈퍼컴퓨터까지 체계적으로 확장되도록 설계되었습니다:단일 칩: 기본 처리 단위로, 2개의 TensorCore를 포함합니다.트레이(Tray): 4개의 TPU 칩과 CPU 호스트로 구성된 기본 배치 단위입니다.랙(Rack): 16개의 트레이(총 64개 TPU)가 4x4x4 3D 메시 또는 토러스 구조로 연결됩니다. 이 수준에서는 전기 케이블로 고속 연결됩니다.TPU 팟(Pod): 여러 랙이 광학 회로 교환(OCS) 기술로 연결된 최대 단위입니다. TPU v4의 경우 최대 4,096개 칩을 포함할 수 있습니다. 팟 내부의 칩들은 3D 토러스 토폴로지로 구성되어 있으며, 각 칩은 3차원의 인접한 칩들과 직접 연결됩니다.멀티팟(Multi-Pod): 여러 팟을 데이터센터 네트워크(DCN) 또는 Jupiter 네트워크 패브릭으로 연결합니다. Google은 단일 Jupiter 네트워크에 100,000개 이상의 Trillium 칩을 연결할 수 있다고 발표했습니다.3D 토러스 토폴로지TPU v4부터 도입된 3D 토러스 토폴로지는 네트워크 대역폭 효율성의 혁신입니다. 일반적인 3D 메시 구조에서는 이분 대역폭(bisection bandwidth)이 N^(1/2)로 확장되지만, TPU v4의 3D 토러스는 N^(2/3)로 확장됩니다. 이는 대규모 분산 훈련에서 병목 지점을 크게 감소시킵니다.Twisted torus 구조도 있는데, 이는 특정 칩 배치(예: 4x4x8)에서 일부 연결을 재배선하여 최악의 경우 지연 시간을 줄입니다.광학 회로 교환 (OCS) 기술TPU v4부터 도입된 광학 회로 교환 기술은 물리적 광 경로를 동적으로 재구성하여 매우 유연한 네트워크 구성을 가능하게 합니다. 이를 통해:저렴한 비용: 광 스위치 및 컴포넌트는 시스템 비용의 5% 미만을 차지합니다저전력: 시스템 전력의 3% 미만만 소비합니다고대역폭: 칩당 4,800Gbps의 칩 간 상호연결(ICI) 대역폭 달성유연한 토폴로지: 동일한 물리적 인프라로 다양한 네트워크 토폴로지 구성 가능TPU의 소프트웨어 설계: XLA 컴파일러와의 공동 설계선행 컴파일 (Ahead-of-Time Compilation) 방식TPU는 하드웨어와 소프트웨어가 함께 설계된 대표적인 예입니다. Google의 XLA(Accelerated Linear Algebra) 컴파일러는 신경망 계산 그래프를 분석하여 메모리 접근 패턴을 사전에 최적화합니다.이 방식은 실행 시점에 동적으로 메모리 접근을 결정하는 CPU/GPU와는 다릅니다. XLA는 연산 그래프가 정적이라고 가정하고, 최적화된 메모리 배치와 통신 패턴을 컴파일 시점에 결정합니다.이로 인해:캐시 오버헤드 감소: 불규칙한 메모리 접근이 최소화됨에너지 효율성 극대화: 메모리 접근(매우 전력 소비적)이 최소화됨높은 처리량: 거의 피크 성능까지 칩을 활용할 수 있음JAX, PyTorch, TensorFlow 지원현대의 TPU는 PyTorch, JAX, TensorFlow를 모두 지원합니다. 특히 JAX의 @jit 데코레이터는 JIT와 AoT 컴파일의 중간 형태로, 최초 실행 시 정적 그래프를 생성한 후 XLA로 컴파일합니다.실제 성능 비교TPU의 실제 성능 우위는 구체적인 작업에 따라 달라집니다. Google의 자체 벤치마크에 따르면:LLM 훈련: TPU v4는 동급 GPU(NVIDIA A100)와 비교할 때 5-87% 빠름추론 처리량: Trillium은 v5e 대비 3배 이상의 추론 처리량 달성에너지 효율: TPU는 GPU 대비 29배 이상의 에너지 효율 달성 가능결론구글 TPU는 단순한 AI 가속기를 넘어, 하드웨어와 소프트웨어가 완벽히 공동 설계된 시스템입니다. 시스톨릭 어레이 구조와 3D 토러스 네트워크 토폴로지, 광학 회로 교환 기술이 결합되어 대규모 AI 모델 훈련에서 이전의 어떤 아키텍처도 달성할 수 없는 성능과 효율성을 제공합니다. 매 세대마다 극적인 성능 향상을 이루어내고 있으며, Trillium(v6e)에서는 2024년 최첨단 AI 모델 훈련을 위한 최적화된 플랫폼으로서의 위치를 확실히 했습니다. 앞으로 AI 인프라의 중심이 될 것으로 예상됩니다.
작성자 : ㅇㅇ고정닉
차단하기
설정을 통해 게시물을 걸러서 볼 수 있습니다.

댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.