참고로 현재는 테슬라에서 Dojo 슈퍼컴퓨터 만들고 있는 사람임
x86은 가변 길이 연산 코드를 포기하지 않는 한 ARM의 IPC나 RISC-V의 발전 방향을 따라잡지 못할 것입니다.
이번 주에 직장에서 애플의 M4와 10-wide 디코더에 대한 질문이 많았습니다.
A9이 8-wide였던 것을 참고하면, 이것은 새로운 현상이 아닙니다.
CPU 마이크로아키텍처 디코드 폭은 지속적인 IPC의 대명사에서 LLVM이 등장하면서 bursty INT 코드의 기본 블록 병목 현상으로 변모했습니다.
AI 전문가를 위해, 이것은 모든 축소(interconnect for all-reduce)에서 최대 대역폭의 같은 효과와 유사합니다. -- 당신은 지속적인 사용을 위한 것이 아니라 순간적인 최대 대역폭을 원합니다.
SIMD는 이 병목을 우회하고 백엔드에서 IPC를 병렬화하는 영리한 해결책이었습니다. 그러나 GPU/NPU가 그 모든 이점을 가져갔습니다.
CPU는 명령어 캐시와 SMT를 혼합하여 대응했지만, 이는 극도의 복잡성으로 인해 사태를 더 악화시켰습니다. 대규모 머신은 파동 방정식 커널을 반복하지 않고 기가바이트 단위의 코드를 빠르게 처리합니다. 따라서 이러한 임시방편은 성능 대 전력 소비 측면에서 부담이 됩니다. 이제 프리패처와 분기 예측기가 이러한 이유로 명령어 캐시와 SMT를 성능 측면에서 뛰어넘습니다.
애플은 IPC 분야의 왕입니다, 그 누구도 아닙니다. ARM은 따라잡고 있습니다
-- 요즘 AWS에서 사용되는 것, 그들의 디코드 폭이 얼마나 넓은지, 또는 NVidia가 Grace-Hopper에 통합하기로 선택한 것을 보세요.
짐 켈러는 저에게 CPU가 Vmin에서 가능한 한 높은 IPC일때 가장 성능이 좋고 효율적이라고 가르쳤습니다.
그는 이제 RISC-V를 밀고 있습니다 -- TensTorrent의 디코드 폭을 확인해 보세요.
AMD나 인텔이 SMT, 명령어 캐시 제거 및 가변 길이 ISA 명령어를 에뮬레이션으로 옮길 용기를 낼까요? 너무 많은 관성이 있어서 아니오, 그들은 패배할 것입니다.
------------------
이해하기 쉬운 부분 요약
- x86의 가변길이 명령어 이점은 희석되고 LLVM 도입으로 고정길이 명령어를 쓰는게 앞으로 최적화에 더 유리해짐
- x86 계열은 SMT (하이퍼쓰레딩)을 도입했지만 오히려 복잡성을 높임. 어거지로 하이퍼쓰레딩 이용하는것보다 이제 프리패처와 분기 예측기 그대로 쓰는게 성능이 더 좋음
- 병렬로 많은 데이터를 처리하는 SIMD 명령어 도입으로 CPU 처리량은 늘릴 수 있었지만 이제 이런 작업들은 GPU, NPU가 가져가버림 (그래픽 작업만 처리하던 GPU가 요즘은 대규모 병렬연산, AI 연산을 맡는것 처럼)
- 이제 하이퍼쓰레딩이나 SIMD 같은 꼼수 말고 순수 처리 성능으로 승부봐야 하는데 애플이 아키텍쳐 규모나 클럭당 처리성능에서 압도적이고 엔비디아, 아마존도 자체 ARM 아키텍쳐를 만들고 있음
- 짐켈러는 자기한테 거대한 아키텍쳐를 낮은 전압으로 구동할때 가장 효율적이라고 가르침. 전압 퍼부으면서 수백와트 차력쇼 하는 인텔은 답이 없다는 뜻
- 지금와서 아키텍쳐 갈아엎어야 하는데 인텔이랑 AMD가 그럴 깡이 있을까?
--------------
인텔도 저래서 차기작에서 하이퍼쓰레딩 버린다는 얘기가 나오는 듯
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.