디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

오늘의 개발일기앱에서 작성

PyTorch갤로그로 이동합니다. 2025.09.24 00:04:26
조회 143 추천 1 댓글 9

GEMM 최적화를 이어서 구현함
row-wise block tile로 Core2Core load balancing해주고 double buffering 적용함
GEMM은 중간 계산용으로 쓰이는게 생각보다 많아서 L1 썼던 놈을 재사용하거나, 데이터타입의 정밀도를 조금 낮추고 속도를 trade off해서 확보하는 걸 생각할 수 있지만 사실 Transpose 연산 오버헤드 없이 stride를 반전한 view pattern으로 보고 input을 block tiling해서 DRAM -> L1 접근해주면 L1을 아끼게 돼서 double buffering 쓸만큼의 여유분이 나옴
실험은 안해봤지만 broadcast만 생각해봐도 후자가 더 빠를듯
사실 tiling할때 block stride랑 인덱스 계산하는 거가 제일 어려웠는데, 이거는 더 고민을 해봐야겠음

우선은 workaround로서 고정사이즈 blk으로 로드가 분배되는데, workload에 맞는 추가적인 최적화를 생각해야함
가령 일반적으로 NN linear = XW+b를 구할 때 bottleneck이 되는건 W임, 훨씬 차원이 더 크기때문에
그러면 block의 크기를 어떻게 잡아줄거냐도 tensor shape에 따라 결정해줄 수 있을 것 같음
block config도 나중에 신경써야할듯

추천 비추천

1

고정닉 1

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 우리나라를 대표해서 UN 연설자로 내보내고 싶은 스타는? 운영자 25/09/29 - -
AD 프로게이머가 될테야!! 운영자 25/10/01 - -
2891492 ↓ 밑에 나르시 조현병 똥글의 GPT Pro의 반박 프갤러(125.128) 09.24 50 0
2891491 ㅋㅋㅋ GPT한테 물어봐도 c/c++ 유래, 내 말이 맞잖아 ㅋㅋ [2] 나르시갤로그로 이동합니다. 09.24 63 0
2891490 무조건 반대만 하는 정신병은 어떻게 고침? ㅇ ㅅㅇ; [1] 프갤러(60.196) 09.24 42 0
2891489 ↓ 밑에 나르시 망상병 똥글의 GPT Pro의 반박 프갤러(125.128) 09.24 46 0
2891488 결국 ChatGPT도 c/c++ 표기에 대한 저의 의견을 뒷받침하는군요. [1] 나르시갤로그로 이동합니다. 09.24 53 0
2891487 나르시 망상병에 대한 GPT Pro의 반박 프갤러(125.128) 09.24 46 0
2891486 다시보는 C++ 환자 ㅎㅎ 나르시갤로그로 이동합니다. 09.24 55 0
2891485 Agi가 완벽하게 바로 등장하는게 아니라.. [1] ㅇㅇ(175.208) 09.24 50 1
2891484 노동 해방이 빨리 왔으면 좋겠다 ㅇㅇ(211.219) 09.24 36 0
2891483 C++ 환자들 난리 나셨나 봅니다. ㅎㅎ 나르시갤로그로 이동합니다. 09.24 103238 0
2891482 MS조차 사용하는 C/C++ 표기 ㅎㅎ 이게 틀렸다고??? [5] 나르시갤로그로 이동합니다. 09.24 72 0
2891481 어제부터 나랑 사귄 여친 사진인데 어떠냐 메쿠이료갤로그로 이동합니다. 09.24 48 1
2891480 ❤✨☀⭐⚡☘⛩나님 시작합니당⛩☘⚡⭐☀✨❤ ♥냥덩이♥갤로그로 이동합니다. 09.24 41 0
2891479 증거 有) 내가 GPT 안 쓰고 제미니 쓰는 이유 ㅋㅋ [2] 나르시갤로그로 이동합니다. 09.24 67 0
2891478 c/c++ 표기의 유래 업뎃 및 gpt 글에 대한 반박 ㅋㅋ [2] 나르시갤로그로 이동합니다. 09.24 62 0
2891477 [대한민국] 트럼프 대통령 UN 연설 영어 원문 프갤러(121.172) 09.24 47 0
2891475 [취업 완성반] 엘리스 프론트엔드 인턴연계 부트캠프 4기 모집 (~10/ 프갤러(14.32) 09.24 70 0
2891474 나르시님 저렴한 싸구려모델 제미나이 쓰나보네요 프갤러(121.168) 09.24 45 0
2891473 1인컴공 졸작 낮은 수준이어도 통과해주냐 [3] ㅇㅇ(125.182) 09.24 95 0
2891472 징벌적 과징금으로 파산시키고 정부가 지분 매입해서 프갤러(218.154) 09.24 58 0
2891471 보안 사고내면 회장 일가 참수하고 벌금으로 파산시켜야 [3] 프갤러(218.154) 09.24 68 0
2891470 3. 업계의 표준적 사용, 요부분은 수정하죠 [2] 나르시갤로그로 이동합니다. 09.24 69 0
2891469 보안 인재 양성 1년에 고작 40명…심각해진 ‘인력 가뭄’ ㅇㅇ(106.102) 09.24 75 0
2891468 나르시 -> C/C++ 똥글 반박 [5] 프갤러(121.168) 09.24 265 11
2891467 뉴비 관리해라 프갤러(219.248) 09.24 47 0
2891466 ❤✨☀⭐⚡☘⛩나님 시작합니당⛩☘⚡⭐☀✨❤ ♥냥덩이♥갤로그로 이동합니다. 09.24 42 0
2891465 c, c++ 섞었는거 아주 흔합니다 ㅎㅎ [2] 나르시갤로그로 이동합니다. 09.24 64 0
2891464 c++, 러스트 정병의 주요 허위사실들 나르시갤로그로 이동합니다. 09.24 53 0
2891463 러스트 꼴통이 늘어나는가봅니다 [1] 나르시갤로그로 이동합니다. 09.24 66 0
2891461 다음 외계 우주선 이름음 어우야어우야 [11] 나르시갤로그로 이동합니다. 09.24 73 0
2891460 공부 잘하는건 방법이나 공부량보다도 태도의 문제인거같음... ㅇㅇ(223.39) 09.24 50 0
2891459 외계 우주선 3i 아틀라스가 접근 중이라고 합니다 [2] 나르시갤로그로 이동합니다. 09.24 106 0
2891458 러스트는 절대 떠오를 리 없습니다. 프갤러(218.154) 09.24 68 0
2891457 남쪽에서 태어난거 전세계 상위10%임 살기좋은나라이고 뒷통수한방(1.213) 09.24 46 1
2891456 러스트가 떠오르긴 하나보네 루도그담당(118.235) 09.24 55 0
2891455 크롤링 잘 아는사람 없냐? [4] ㅇㅇ(221.146) 09.24 72 0
2891454 뀨❤+ ♥냥덩이♥갤로그로 이동합니다. 09.24 50 0
2891453 오늘 ada 프로그래밍 2장. 어휘요소 [2] 나르시갤로그로 이동합니다. 09.24 64 0
2891450 님들 웹사이트 히스토리 프갤러(165.132) 09.24 48 0
2891448 ❤✨☀⭐⚡☘⛩나로님 시작합니당⛩☘⚡⭐☀✨❤ [1] Naro갤로그로 이동합니다. 09.24 52 0
2891447 ❤✨☀⭐⚡☘⛩나님 시작합니당⛩☘⚡⭐☀✨❤ ♥냥덩이♥갤로그로 이동합니다. 09.24 55 0
2891446 우테코 입학설명회한다 [1] 프갤러(39.125) 09.24 75 0
2891444 그렇다고 합니다 ㅇㅇ갤로그로 이동합니다. 09.24 64 0
2891443 반중력 장치 만든다 ㅎㅎ [1] 나르시갤로그로 이동합니다. 09.24 55 0
2891441 최원종은 지금쯤 뭘할까요? [5] 헬마스터갤로그로 이동합니다. 09.24 95 0
2891439 냥덩이 화장실.. ㅇㅅㅇ 헤르 미온느갤로그로 이동합니다. 09.24 59 0
2891438 컨설팅 입장에서 중견 SI부터 일하고 싶은 이유 프갤러(175.223) 09.24 94 1
2891436 티라노 대가리 ㅇㅅㅇ [2] 헤르 미온느갤로그로 이동합니다. 09.24 71 0
2891434 태연 ㅇㅅㅇ [2] 헤르 미온느갤로그로 이동합니다. 09.24 60 0
2891433 하루 한 번 헤르미온느 찬양 헤르 미온느갤로그로 이동합니다. 09.24 55 0
뉴스 카카오엔터·CJ ENM, 글로벌 K밴드 만든다 디시트렌드 09.30
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2