디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

AI 벤치마크, 온전히 신뢰할 수 있을까

IT동아갤로그로 이동합니다. 2025.04.16 20:08:59
조회 271 추천 0 댓글 0
[IT동아 김예지 기자] 인공지능(AI) 벤치마크는 특정 기준에 따라 다양한 AI 모델의 성능을 비교·평가하는 도구다. 개발자 및 사용자는 벤치마크로 측정된 AI 모델의 역량을 파악하고, 이를 토대로 활용 방안을 모색하거나 개선점을 찾을 수 있다.


Humanity



일반적으로 AI 벤치마크는 ▲평가 대상 영역을 대표하는 선별된 ‘데이터셋’ ▲AI 모델이 해결해야 하는 ‘과제’ ▲성능을 평가하는 ‘지표’ ▲공정한 비교를 위한 표준화 절차로 구성된다. 벤치마크의 영역별 지표에는 번역, 언어 모델링, 질의응답, 코드 생성, 컴퓨터 비전, 효율성 및 시스템, 수학 등이 있다.

AI 벤치마크, 계속 새롭게 등장하는 이유는?


주요 AI 벤치마크로는 언어 이해 능력을 종합적으로 평가하는 ▲MMLU-pro(다중 작업 언어 이해) ▲Humanity’s Last Exam(광범위한 주제에 대한 학술 벤치마크) ▲GLUE/SuperGLUE(일반 언어 이해) ▲Big-Bench(범용 능력) ▲HellaSwag(상식 추론 능력) 등이 있다. 또한 수학 능력 평가에는 ▲AIME 2024(미국 수학 경시대회) ▲MATH-500(수학 올림피아드 문제) 등이 활용되며, 코딩 능력 평가에는 ▲LiveCodeBench(고품질 코딩 문제) ▲SWE-Bench ▲HumanEval(오픈AI의 코딩 벤치마크) ▲ScicCode 등이 활용된다.

최근 AI 에이전트가 화두로 떠오르면서 에이전트의 자율적인 작업 수행 능력을 평가하는 벤치마크도 개발되고 있다. ▲DABStep ▲AgentBench ▲ToolBench ▲WebArena ▲Raga AI 프레임워크 ▲페이퍼벤치(오픈AI) 등이 대표적이다. 더불어 의료, 법률, 금융, 소프트웨어 공학 등 특정 분야의 성능 평가를 위한 벤치마크도 다양하다. 예컨대, 지난 13일 구글 연구팀이 발표한 대형언어모델(LLM) 문제 해결 능력 평가 벤치마크 ‘큐리(CURIE)’는 양자컴퓨팅 등 첨단 과학 분야에 특화됐다.


MLPerf Inference v5.0 그래프, 라마 2 70B 모델 벤치마크 채택률(제출자 수 및 결과 수)이 증가하고 있다 / 출처=ML커먼스



그렇다면 다양한 벤치마크가 계속 새롭게 개발되는 이유는 무엇일까. 이는 사용자가 AI 모델에 기대하는 성능이 각기 다르기 때문이다. 결국 본인에게 맞는 모델을 찾으려면 그에 적합한 벤치마크가 필요하다. 서로 다른 목표를 가진 과제는 근본적으로 다른 지표와 측정 방식을 요구한다.

또 다른 이유는 기존의 벤치마크가 한계를 갖기 때문이다. AI 모델은 추론, 멀티모달 처리, 코딩 등 영역에서 지속적으로 발전하고 있다. 이로 인해 과거에는 어려웠던 과제들이 상대적으로 쉬워지면서 기존 벤치마크로는 최신 모델을 평가하는 데 불충분하다. 과거에 공개된 AI 벤치마크가 다른 버전이나 새로운 분야로 확장돼 나오는 것도 이러한 이유 때문이다. 예컨대, 머신러닝 성능을 평가하는 ‘MLPerf’는 생성 AI의 추론 효율성을 평가하기 위해 ‘MLPerf Inference v5.0’이라는 최신 벤치마크를 선보였다.

특히 AI 모델이 복잡한 추론 모델로 진화하는 과정에서 벤치마크 또한 큰 진전이 있었다. 추론 모델은 사고 과정에서 추가적인 컴퓨팅 자원을 소모해 응답 정확도를 높이는 방식으로, 수학과 코딩에 강점을 갖는다. 과거에는 모델 성능 향상을 위해 주로 스케일링 법칙에 기반한 방법이 사용됐지만, 추론 모델은 이와 다른 새로운 패러다임을 제시했다. 높은 수준의 지식과 추론 능력이 요구되는 AI 에이전트 벤치마크에서 추론 모델은 우수한 평가를 받는다.

AI 벤치마크 결과, 100% 신뢰는 금물


AI 성능을 평가할 때 벤치마크는 중요한 기준이 되지만, 그 결과를 해석할 때는 신중해야 한다. 기업은 원하는 AI 성능에 부합하는 벤치마크를 참조하되, 여러 벤치마크 결과를 종합적으로 비교해볼 필요가 있다. AI 벤치마크가 실제 환경과 동떨어진 결과를 보여줄 수 있기 때문이다. 또한 개발자가 특정 벤치마크에 유리하도록 알고리즘을 조정하는 사례가 발생하면서 벤치마크의 정확성에 대한 의문이 제기된 것도 한몫한다. 최근 메타는 ‘라마 4(Llama 4)’에 대한 성능 과장 의혹을 받은 바 있다. 일부 기업이 자사의 AI 모델 성능을 부각하기 위해 유리한 벤치마크 결과만을 선별적으로 공개하면서 지표 자체의 신뢰도를 스스로 떨어뜨렸다는 비판도 있다.


김지수 올거나이즈코리아 팀장 / 출처=IT동아



AI 모델의 벤치마크 결과는 실제 운영 환경에서의 데이터 또는 프롬프트 차이로 인해 달라질 수 있다. 지난 11일 산업교육연구소가 주최한 ‘딥시크 분석을 통한 AI 기술 개발을 위한 새로운 기회 세미나’에서 김지수 올거나이즈코리아 팀장은 “벤치마크는 실제 성능을 100% 대표할 수는 없다. 벤치마크에서 높은 점수를 받은 AI 모델도 실제 사용 시 부정확한 답변을 내놓을 수 있다”고 지적했다. 그러나 그는 “그럼에도 불구하고 이러한 벤치마크들이 계속 등장하는 이유는 넓은 범위에서 모델의 성능과 수준을 파악하기 용이하고, 사용자가 원하는 작업에 어떤 모델이 필요한지에 대한 가이드라인으로 충분히 활용할 수 있기 때문”이라고 덧붙였다.

따라서 기업은 벤치마크가 실제 환경을 얼마나 잘 반영하는지, 그리고 수행된 과제가 실제 비즈니스 상에서 결과를 반영하는지 등을 확인하는 것이 강조된다. 김지수 팀장은 “고객사들이 어떤 모델을 선택할 지 도움을 줄 때 벤치마크 결과를 바탕으로 정성적으로 평가를 해보도록 권장하며, 특정 업무에 사용할 AI 모델의 성능을 평가하기 위해 최소 50개 정도의 평가용 데이터셋(Evaluation Data)을 구축해 직접 평가해보라고 조언한다”고 말했다.

이어 그는 “이렇게 하면 빠르게 변화하는 AI 모델을 신속하게 평가하는 데 유리하다. 요즘 추세를 보면 매달, 매주 새로운 모델이 출시되고 있으며, 모델은 이전 세대 모델을 능가하는 성능을 동일한 가격에 제공하는 경우가 많다. 기업들이 자사의 워크플로우에 새로운 AI 모델을 도입하려는 경우, 바로 적용되는지 테스트를 할 수 있어야 하기 때문에 이러한 데이터셋이 꼭 필요하다”고 설명했다.

김지수 팀장은 “올거나이즈는 LLM뿐만 아니라 에이전트, 금융, 검색증강생성(RAG), 리더보드 등 다양한 파이프라인을 제공하고 있다. 모든 엣지 케이스를 포괄적으로 검증하기 위해 자체적으로 데이터셋을 구축해 모델 평가에 활용하고, 고객에게 적합한 모델을 개발 및 추천하기 위해 노력한다”고 말했다. 또한 “올거나이즈가 개발한 LLM 알파 모델은 동급 파라미터에서 경쟁력 있는 점수를 기록하고 있으며, 3B 모델은 오픈소스로 공개할 예정”이라고 덧붙였다.

AI 벤치마크는 초기 단순한 과제 수행 능력 측정에서 시작해 점차 복잡하고 다면적인 평가 방식으로 진화해왔다. 새로운 패러다임의 등장은 AI 기술의 빠른 발전 속도와 더불어 새로운 벤치마크가 지속적으로 개발되게 하는 주요 동력이다. 기술적인 벤치마크는 필수적이지만, AI 모델의 최종 척도는 실제 환경에서의 신뢰성과 유용성에 달렸다. 데이터 오염을 방지하고 벤치마크 신뢰도를 높여 추상적인 지표와 실질적인 가치 사이의 간극을 좁혀나가는 노력은 지속될 것으로 전망된다. 기업은 벤치마크를 적절히 참고하되 자사의 목표에 맞춰 효율적으로 활용하는 방안을 모색해야 한다.

IT동아 김예지 기자 (yj@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)



▶ [주간스타트업동향] 넥스트페이먼츠, 모네리스와 파트너십 체결 外▶ 김성훈 업스테이지 대표, "워크 인텔리전스로 일하는 방법, 새로운 방향 만들겠다"▶ 코헤시티 “백업 솔루션 넘어 AI 데이터 분석 기업으로 도약”



추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 탈모 걱정 없어 보이는 머리숱 금수저 스타는? 운영자 25/07/14 - -
5269 안심하고 사는 '재판매 티켓'...시장 도울 합리적 규제 필요 [3] IT동아갤로그로 이동합니다. 05.14 2718 0
5268 [ETF/퇴직연금 Q&A] 퇴직연금 ETF에 ‘S&P500 ETF’를 추천하는 이유 IT동아갤로그로 이동합니다. 05.14 261 0
5267 [주간스타트업동향] 위플로, 북미 최대 무인항공기 전시회 참가 外 IT동아갤로그로 이동합니다. 05.14 229 0
5266 어도비, 생산성/창의성 강화하는 크리에이티브 클라우드 에이전트 AI 공개 IT동아갤로그로 이동합니다. 05.14 230 0
5265 SBA, 공공기관 최초 'AI CEO 아바타' 활용한 홍보 나서 [3] IT동아갤로그로 이동합니다. 05.14 5524 0
5264 SKT 유심해킹, 현재까지 알려진 피해범위는? IT동아갤로그로 이동합니다. 05.13 2312 0
5263 새 가상자산 거래지원 모범사례, 골자는 심사 강화·공시 확대 IT동아갤로그로 이동합니다. 05.13 243 0
5262 [IT애정남] 시끄러운 영상통화 하울링, 어떻게 잡나요? IT동아갤로그로 이동합니다. 05.13 248 0
5261 [자동차와 法] 친환경차 보급과 자동차세 개편의 필요성 IT동아갤로그로 이동합니다. 05.13 227 0
5260 ‘6.7인치ㆍ5.8mmㆍ163g’ 갤럭시 S25 엣지의 비밀은? IT동아갤로그로 이동합니다. 05.13 858 0
5259 [뉴스줌인] 삼성 오디세이 OLED G6 게이밍 모니터, 500Hz의 의미는? [4] IT동아갤로그로 이동합니다. 05.12 2427 0
5258 [스타트업-ing] 원컵 "부동산 투자 장벽 낮추는 조각투자 플랫폼" IT동아갤로그로 이동합니다. 05.12 253 0
5257 황현지 스모어톡 대표 "플라멜, 생성형 AI를 여행하는 마케터를 위한 안내서죠" IT동아갤로그로 이동합니다. 05.12 248 0
5256 국제운전면허증, 비대면 발급할 땐 이렇게! [이럴땐 이렇게!] IT동아갤로그로 이동합니다. 05.12 5655 0
5255 한주호 노키아코리아 유선사업총괄 “AI 시대 데이터 폭증, 지능형 유선 네트워크가 뒷받침” IT동아갤로그로 이동합니다. 05.12 246 0
5254 [투자를IT다] 2025년 5월 1주차 IT기업 주요 소식과 시장 전망 IT동아갤로그로 이동합니다. 05.09 344 0
5253 [생성AI길라잡이] AI 산업의 가이드라인? ‘AI기본법’ 이모저모 IT동아갤로그로 이동합니다. 05.09 341 0
5252 [농업이IT(잇)다] 온쿡컴퍼니 “송쭈집 주꾸미 브랜드로 K-푸드 르네상스 이루고 싶어” IT동아갤로그로 이동합니다. 05.09 333 0
5251 [리뷰] 게임∙창작 모두 손쉬운 만능 노트북, 에이수스 ROG 제피러스 G16(GU605CW) [11] IT동아갤로그로 이동합니다. 05.09 8000 0
5250 [리뷰] 최대 128GB 통합 메모리로 성능 상한 높인 '애플 맥 스튜디오' [7] IT동아갤로그로 이동합니다. 05.09 8646 7
5249 커피캡슐·폐의약품 수거…40년 만에 활용처 확대해 탈바꿈 ‘에코 우체통’ [12] IT동아갤로그로 이동합니다. 05.09 8068 4
5248 비영리법인·거래소, 가상자산 매도 시 주의할 점은? IT동아갤로그로 이동합니다. 05.09 268 0
5247 [생활 속 IT] 네이버 지도, 거리뷰 3D로 생생하게 길찾기 IT동아갤로그로 이동합니다. 05.09 1008 0
5246 [시승기] 디자인 가다듬고 배터리 용량 확대해 돌아온 ‘제네시스 GV60 부분변경’ IT동아갤로그로 이동합니다. 05.08 318 0
5245 데이터 기반 투자 전략 수립 지원, 업비트 데이터랩·코인 분류 IT동아갤로그로 이동합니다. 05.08 267 0
5244 “투자자문 입회비 반환 드립니다” 솔깃한 전화ㆍ메시지 속지 마세요 [1] IT동아갤로그로 이동합니다. 05.08 741 0
5243 [IT하는법] 안경 없어도 시야 확보하는 '접근성 돋보기' IT동아갤로그로 이동합니다. 05.08 311 0
5242 [주간스타트업동향] 로플랫, 2025 교차방문 트렌드 리포트 공개 外 IT동아갤로그로 이동합니다. 05.07 344 0
5241 가상자산 이용자 20%가 피해 경험 “이용자 보호 규제 강화 필요” [6] IT동아갤로그로 이동합니다. 05.07 6454 0
5240 인공지능 장비 시장, 반도체에 붙은 불 ‘저장장치’로 옮겨가나? IT동아갤로그로 이동합니다. 05.06 534 0
5239 [신차공개] 2025년형 폴스타 2 출시·폭스바겐 ID.5 고객 인도 개시 [1] IT동아갤로그로 이동합니다. 05.06 2113 0
5238 [주간투자동향] 씨드앤, 65억 원 규모 시리즈A 투자 유치 外 IT동아갤로그로 이동합니다. 05.05 292 0
5237 해외 출국 전, SKT 유심 교체하려면 [3] IT동아갤로그로 이동합니다. 05.05 8089 0
5236 CD에 담긴 음악, 폰으로 들으려면 이렇게![이럴땐 이렇게!] IT동아갤로그로 이동합니다. 05.05 294 0
5235 [칼럼] 생성형 AI의 다음을 준비한다면, 지금 ‘양자 컴퓨팅’에 주목하라 IT동아갤로그로 이동합니다. 05.02 291 0
5234 [생성AI길라잡이] 생성AI 기반 의료기기 임상시험 첫 승인 IT동아갤로그로 이동합니다. 05.02 9523 1
5233 [농업이IT(잇)다] 블레스드프로젝트 “농업부산물 업사이클링 뷰티 제품으로 순환 가치 제안하는 기업될 것” IT동아갤로그로 이동합니다. 05.02 268 0
5232 SKT, “14일까지 유심 물량 부족 불가피”…유심보호서비스 자동가입 지원 IT동아갤로그로 이동합니다. 05.02 283 0
5231 [IT애정남] 단톡방 이름을 바꿨는데, 왜 나만 바뀌죠? IT동아갤로그로 이동합니다. 05.02 321 0
5230 [기고] AI와 미래 산업기술 - 2. AI 전문가, 미래를 디자인하라 IT동아갤로그로 이동합니다. 05.02 244 0
5229 조영태 서울대 인구정책연구센터장 “인구 데이터, 기업의 성패 좌우” IT동아갤로그로 이동합니다. 05.01 263 0
5228 이용관 블루포인트파트너스 대표 “인구테크, 사회를 더 나은 방향으로” IT동아갤로그로 이동합니다. 05.01 248 0
5227 청년창업 인프라의 ‘기준’을 만드는 강동구 청년해냄센터 IT동아갤로그로 이동합니다. 04.30 264 0
5226 SKT 해킹사고, 유심 교체 당장 어렵다면? IT동아갤로그로 이동합니다. 04.30 599 0
5225 재규어랜드로버 “통합 플랫폼 운영 및 보증 기간 확대로 소비자 신뢰 회복할 것” IT동아갤로그로 이동합니다. 04.30 457 0
5224 [주간스타트업동향] 코딧, '2025 대통령 선거 정책 모니터링 플랫폼' 출시 外 [1] IT동아갤로그로 이동합니다. 04.30 910 0
5223 [르포] 내 취향을 아는 AI 스토어 ‘나노’, 고객 맞춤 메뉴 제공한다 IT동아갤로그로 이동합니다. 04.30 308 0
5222 [ETF/퇴직연금 Q&A] 퇴직연금, 은행에서도 ETF에 투자할 수 있다 IT동아갤로그로 이동합니다. 04.30 232 0
5221 [퀀텀 스타트업] 1. 큐비트 나침반으로 양자 시대를 개척하라 IT동아갤로그로 이동합니다. 04.30 207 0
5220 SBA, 규제해소라운지 개소 ‘규제·애로 해소 위한 열린 소통 공간’ IT동아갤로그로 이동합니다. 04.30 216 0
뉴스 ‘이효리♥’ 이상순 12년 기다림 끝에…‘좋은 소식’ 전했다 디시트렌드 07.17
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2