Anthropic, AI의 '블랙박스' 열기 위한 획기적 발전 이룩

GPTMAGAZINE · 2025.03.30 22:12:52

AI 기업 Anthropic의 연구원들이 현재 AI 붐을 이끌고 있는 대형 언어 모델(LLM)이 정확히 어떻게 작동하는지에 대한 근본적인 돌파구를 마련했다고 발표했다. 이번 발전은 앞으로 AI 모델을 더 안전하고, 보안이 강화되며, 더 신뢰할 수 있게 만드는 방법에 중요한 시사점을 제공한다.

오늘날 강력한 대형 언어 모델(LLM) 기반 AI의 문제점 중 하나는 모델들이 블랙박스라는 점이다. 우리는 어떤 프롬프트를 입력하고 어떤 출력이 나오는지 알 수 있지만, 특정 응답에 도달하는 정확한 방법은 이들을 만든 AI 연구원들에게조차 미스터리로 남아있다.

이러한 불가해성은 여러 종류의 문제를 야기한다. 모델이 '환각' 상태에 빠져 잘못된 정보를 자신 있게 내뿜을 때를 예측하기 어렵게 만든다. 이러한 대형 AI 모델들은 가드레일(AI 모델 개발자들이 모델의 출력에 설정하려는 제한)을 우회하도록 속일 수 있는 다양한 '탈옥' 방법에 취약하다는 것을 알지만, 왜 어떤 탈옥 방법이 다른 것보다 더 효과적인지, 또는 왜 가드레일을 만들기 위한 미세 조정이 개발자가 원치 않는 일을 모델이 하지 못하도록 충분히 강한 억제를 만들어내지 못하는지 이해하지 못한다.

LLM이 어떻게 작동하는지 이해하지 못하는 우리의 무능력은 일부 기업들이 이를 사용하는 것을 주저하게 만들었다. 모델의 내부 작동 방식이 더 이해하기 쉬워진다면, 기업들이 모델을 더 광범위하게 사용할 수 있는 자신감을 가질 수 있을 것이다.

점점 더 강력해지는 AI '에이전트'에 대한 통제력을 유지하는 능력에도 영향을 미친다. 이러한 에이전트들이 '보상 해킹'—모델 사용자가 의도하지 않은 방식으로 목표를 달성하는 방법을 찾는 것—을 할 수 있다는 것을 알고 있다. 일부 경우에는 모델이 사용자에게 자신이 한 일이나 하려는 일에 대해 거짓말을 하며 기만적일 수 있다. 최근의 '추론' AI 모델은 '생각의 사슬'—인간에게 '자기 성찰'처럼 보이는 것을 포함하는 프롬프트에 응답하는 계획—을 생성하지만, 모델이 출력하는 생각의 사슬이 그것이 취하는 단계를 정확하게 나타내는지 알 수 없다(그리고 종종 그렇지 않을 수 있다는 증거가 있다).

Anthropic의 새로운 연구는 이러한 문제 중 적어도 일부를 해결할 수 있는 경로를 제공한다. 과학자들은 LLM이 어떻게 '생각'하는지 해독하기 위한 새로운 도구를 만들었다. 본질적으로, Anthropic 연구원들이 만든 것은 신경과학자들이 인간 연구 대상의 뇌를 스캔하고 어떤 뇌 영역이 인지의 다른 측면에서 가장 큰 역할을 하는지 밝히기 위해 사용하는 fMRI 스캔과 비슷하다. 이 fMRI와 유사한 도구를 발명한 Anthropic은 이를 Anthropic의 Claude 3.5 Haiku 모델에 적용했다. 이를 통해, 그들은 Claude와 아마도 대부분의 다른 LLM이 어떻게 작동하는지에 대한 몇 가지 핵심 질문을 해결할 수 있었다.

연구원들은 Claude와 같은 LLM이 처음에는 단지 문장의 다음 단어를 예측하도록 훈련되었지만, 그 과정에서 Claude는 특정 종류의 작업에 관해서는 적어도 일부 장기 계획을 배운다는 것을 발견했다. 예를 들어, 시를 쓰라고 요청받을 때, Claude는 운을 맞추고 싶은 시의 주제나 테마와 관련된 단어를 찾은 다음 그 운을 맞추는 단어로 끝나는 문장을 역으로 구성한다.

또한 다국어로 훈련된 Claude는 각 언어로 추론하기 위한 완전히 별도의 구성 요소를 가지고 있지 않다는 것을 발견했다. 대신, 언어 간에 공통적인 개념은 모델 내의 동일한 뉴런 집합에 포함되어 있으며 모델은 이 개념적 공간에서 '추론'한 후에야 출력을 적절한 언어로 변환하는 것으로 보인다.

연구원들은 또한 Claude가 사용자를 만족시키기 위해 자신의 생각의 사슬에 대해 거짓말을 할 수 있다는 것을 발견했다. 연구원들은 모델에게 어려운 수학 문제를 제시하고, 그 다음 그것을 해결하는 방법에 대한 잘못된 힌트를 모델에게 제공함으로써 이를 보여주었다.

다른 경우에는, 추론 없이 거의 즉시 대답할 수 있는 더 쉬운 질문을 받았을 때, 모델은 허구의 추론 과정을 만들어낸다. "모델이 계산을 실행했다고 주장함에도 불구하고, 우리의 해석 기술은 이것이 발생했다는 어떤 증거도 전혀 보여주지 않습니다,"라고 이 프로젝트에 참여한 Anthropic 연구원 조시 배트슨은 말했다.

LLM의 내부 추론을 추적하는 능력은 보안 및 안전 문제에 대한 AI 시스템 감사의 새로운 가능성을 열어준다. 또한 연구원들이 AI 시스템이 가진 가드레일을 개선하고 환각 및 기타 결함 있는 출력을 줄이기 위한 새로운 훈련 방법을 개발하는 데 도움이 될 수 있다.

일부 AI 전문가들은 인간의 마음도 종종 다른 인간에게 불가해하지만 우리는 매일 인간에 의존한다고 말하면서 LLM의 '블랙박스 문제'를 무시한다. 우리는 다른 사람이 무슨 생각을 하는지 정말로 알 수 없으며—사실, 심리학자들은 때때로 우리가 우리 자신의 생각이 어떻게 작동하는지조차 이해하지 못하고, 직관적으로 또는 우리가 의식하지 못할 수도 있는 감정적 반응으로 인해 우리가 취한 행동을 정당화하기 위해 사후에 논리적 설명을 만들어낸다는 것을 보여주었다. 우리는 종종 다른 사람이 우리와 거의 같은 방식으로 생각한다고 잘못 가정하는데—이는 온갖 종류의 오해를 초래할 수 있다. 그러나 매우 광범위하게 말하자면, 인간은 다소 비슷한 방식으로 생각하는 경향이 있으며, 우리가 실수를 할 때, 이러한 실수는 다소 익숙한 패턴에 속한다는 것도 사실인 것 같다(심리학자들이 많은 공통적인 인지 편향을 식별할 수 있었던 이유이다). 그러나 LLM의 문제는 그들이 출력에 도달하는 방식이 인간이 동일한 작업을 수행하는 방식과는 충분히 다르기 때문에, 인간이 실패할 가능성이 매우 낮은 방식으로 실패할 수 있다는 것이다.

배트슨은 그와 다른 과학자들이 이러한 이질적인 LLM 뇌를 탐구하기 위해 개발하고 있는 종류의 기술—'기계적 해석 가능성'이라는 분야로 알려진—덕분에 빠른 진전이 이루어지고 있다고 말했다. "저는 1-2년 안에, 우리가 사람들이 어떻게 생각하는지보다 이 모델들이 어떻게 생각하는지에 대해 더 많이 알게 될 것이라고 생각합니다," 그는 말했다. "왜냐하면 우리는 원하는 모든 실험을 할 수 있기 때문입니다."

LLM이 어떻게 작동하는지 탐구하려는 이전 기술은 신경망 내의 개별 뉴런이나 작은 뉴런 집단을 해독하거나, 최종 출력 레이어 아래에 위치한 신경망의 레이어에 출력을 토해내도록 요청하여 모델이 정보를 처리하는 방법에 대해 무언가를 밝히는 데 중점을 두었다. 다른 방법에는 '절제'—본질적으로 신경망의 일부를 제거하는 것—한 다음 모델이 수행하는 방식과 원래 수행한 방식을 비교하는 것이 포함된다.

Anthropic이 새로운 연구에서 실제로 한 일은 개별 뉴런의 가중치가 아닌 해석 가능한 기능 집합을 사용하여, 크로스 레이어 트랜스코더(CLT)라고 불리는 완전히 다른 모델을 훈련시킨 것이다. 그러한 기능의 예로는 특정 동사의 모든 활용형, 또는 '이상'을 나타내는 용어가 있을 수 있다. 이를 통해 연구원들은 함께 연결되는 경향이 있는 전체 뉴런 '회로'를 식별할 수 있게 함으로써 모델이 어떻게 작동하는지 더 잘 이해할 수 있다.

"우리의 방법은 모델을 분해하므로, 우리는 원래 뉴런과 같지 않지만, 조각이 있는 새로운 조각을 얻습니다. 이는 우리가 실제로 다른 부분이 어떻게 다른 역할을 하는지 볼 수 있다는 것을 의미합니다,"라고 배트슨은 말했다. "또한 연구원들이 네트워크의 레이어를 통해 전체 추론 과정을 추적할 수 있게 해주는 장점이 있습니다."

그럼에도 불구하고, Anthropic은 이 방법에 몇 가지 단점이 있다고 말했다. 이는 Claude와 같은 복잡한 모델 내부에서 실제로 일어나는 일의 근사치일 뿐이다. CLT 방법이 식별하는 회로 외부에 존재하는 뉴런이 있을 수 있으며, 이는 일부 모델 출력 형성에 미묘하지만 중요한 역할을 할 수 있다. CLT 기술은 또한 LLM이 작동하는 주요 부분을 포착하지 못한다—이는 주의(attention)라고 불리는 것으로, 모델이 출력을 형성하는 동안 입력 프롬프트의 다른 부분에 다른 정도의 중요성을 두는 것을 배우는 것이다. 이 주의는 모델이 출력을 형성함에 따라 동적으로 변한다. CLT는 LLM '사고'에 중요한 역할을 할 수 있는 이러한 주의 변화를 포착할 수 없다.

Anthropic은 또한 단지 "수십 개의 단어"에 불과한 프롬프트에 대해서도 네트워크의 회로를 식별하는 데 인간 전문가가 몇 시간이 걸린다고 말했다. 이 기술이 어떻게 더 긴 프롬프트를 다룰 수 있도록 규모를 키울 수 있을지 분명하지 않다고 말했다.

출처: GPT매거진 (www.gptmagazine.net)

번호	제목	글쓴이	작성일	조회	추천
설문	2025년 가장 기억에 남는 인터넷 이슈는?	운영자	25/12/22	-	-
588	OpenAI, GPT-2 이후 첫 오픈소스 모델 출시 예고	GPTMAGAZINE	04.01	246	0
587	마이크로소프트, 상하이 AI 연구소 폐쇄... 중국 사업 축소 신호탄 [8]	GPTMAGAZINE	04.01	2609	57
586	일론 머스크의 'Grok', 상표권 분쟁에 휘말려 [1]	GPTMAGAZINE	04.01	2212	0
585	Lightmatter, AI 칩을 위한 새로운 광학 기술 출시	GPTMAGAZINE	04.01	190	0
584	'AI가 코딩 일자리 대체할 것' 레플릿 CEO의 충격적 발언... "지금 코딩 공부하지 마세요"	GPTMAGAZINE	03.30	720	3
583	유튜브의 이상한 가짜 영화 예고편 세계와 스튜디오들의 AI 영상 수익화 실태	GPTMAGAZINE	03.30	577	0
582	Navina, 골드만삭스 주도 5,500만 달러 시리즈 C 투자 유치	GPTMAGAZINE	03.30	211	0
581	Instacart에 인수된 셀프 체크아웃 스타트업 창업자, 이제 저가형 로봇 개발 나서	GPTMAGAZINE	03.30	201	0
	Anthropic, AI의 '블랙박스' 열기 위한 획기적 발전 이룩	GPTMAGAZINE	03.30	200	0
579	OpenAI, ChatGPT의 이미지 생성 안전장치 완화 [5]	GPTMAGAZINE	03.29	7931	2
578	일론 머스크, xAI의 X(前 트위터) 인수 발표 [10]	GPTMAGAZINE	03.29	9113	3
577	구글, 검색, 지도, Gemini에 새로운 휴가 계획 기능 출시	GPTMAGAZINE	03.29	201	0
576	AI 검색 엔진 Perplexity, 차세대 쇼핑 경험 창출 희망... 작은 스타트업이 해결책 될 수 있다고 확신	GPTMAGAZINE	03.29	183	0
575	AI가 독자를 가져가는 상황에서, 역사 출판사 대표가 고민하는 미래	GPTMAGAZINE	03.29	186	0
574	유출된 데이터, 중국의 AI 검열 시스템 실체 드러내 [10]	GPTMAGAZINE	03.27	2941	38
573	OpenAI의 바이럴 '스튜디오 지브리' 현상, AI 저작권 우려 부각시켜 [3]	GPTMAGAZINE	03.27	1214	0
572	OpenAI, 경쟁사 Anthropic의 AI 모델-데이터 연결 표준 채택	GPTMAGAZINE	03.27	221	0
571	알리바바, '비용 효율적인 AI 에이전트'를 위한 새 오픈소스 AI 모델 출시	GPTMAGAZINE	03.27	213	0
570	중국, AI 붐 잡으려 수백 개 데이터 센터 건설했지만 대부분 미사용 상태 [13]	GPTMAGAZINE	03.27	5198	4
569	OpenAI, 대화 경험 개선된 AI 음성 비서 업데이트 발표	GPTMAGAZINE	03.25	2030	0
568	Meta, Instagram에서 AI 생성 댓글 테스트 중인 모습 포착 [1]	GPTMAGAZINE	03.23	2310	1
567	Kleiner Perkins, 직원 복지로서 모기지 제공하는 'Multiply Mortgage'에 2,350만 달러 시리즈 A 투자 주도 [1]	GPTMAGAZINE	03.22	7063	1
566	북한, AI 해킹에 초점 맞춘 새로운 부서 발족 [21]	GPTMAGAZINE	03.22	8606	3
564	Google, Search와 Android를 위한 새로운 의료 관련 기능 출시 [1]	GPTMAGAZINE	03.18	5008	1
563	중국의 AI 열풍: DeepSeek, 자동차부터 의료까지 이미 모든 곳에 침투 [7]	GPTMAGAZINE	03.16	888	0
562	AI 에이전트 기반 컴플라이언스 자동화 스타트업 Norm Ai, 4,800만 달러 투자 유치 [1]	GPTMAGAZINE	03.15	7063	0
561	OpenAI, 컴퓨터 제어 AI 기능을 다른 앱에 제공하기로	GPTMAGAZINE	03.15	373	1
560	UiPath, Peak 에이전트 AI 인수로 성장의 길 모색	GPTMAGAZINE	03.15	667	0
559	Google, AI 정책 제안서에서 약화된 저작권 및 수출 규정 촉구 [3]	GPTMAGAZINE	03.15	7147	1
558	OpenAI, DeepSeek을 '국가 통제' 하에 있다고 주장하며 '중국산' 모델 금지 촉구	GPTMAGAZINE	03.15	270	0
557	SoftBank, OpenAI 협력을 위해 구 Sharp 공장 6,760만 달러에 매입	GPTMAGAZINE	03.15	255	0
556	스페인, AI 생성 콘텐츠 미표시에 막대한 벌금 부과 예정 [1]	GPTMAGAZINE	03.12	2412	1
555	'드래프트 체인' 기법으로 AI 비용 90% 절감하면서 성능은 향상	GPTMAGAZINE	03.11	357	0
554	'마누스(Manus)', 중국의 두 번째 '딥시크 모멘트'는 아닌 듯 [8]	GPTMAGAZINE	03.11	1059	0
553	허깅페이스 CSO, "AI가 '서버 위의 예스맨'으로 전락하고 있다" 우려 표명 [1]	GPTMAGAZINE	03.11	1140	5
552	니르바나, AI 기반 트럭 보험 서비스로 8천만 달러 투자 유치	GPTMAGAZINE	03.11	293	0
551	AI로 목소리 도용 쉬워졌다... 현재로선 막을 방법 거의 없어 [11]	GPTMAGAZINE	03.11	3334	2
550	세일즈포스, 자율 AI 플랫폼 'Agentforce 2dx' 출시로 디지털 노동 혁신 추구	GPTMAGAZINE	03.06	4504	0
549	마이크로소프트, 세일즈포스에 맞서 영업용 AI 에이전트 공개	GPTMAGAZINE	03.06	397	0
548	전 구글 CEO 에릭 슈미트, 'AGI 개발을 위한 맨해튼 프로젝트' 반대 의견 제시 [4]	GPTMAGAZINE	03.06	2349	1
547	모든 암 환자에게 항암치료가 필요한 것은 아니다 - 아타락시스 AI, 맞춤형 치료 위해 2천만 달러 유치 [7]	GPTMAGAZINE	03.06	2546	2
546	새 데이터 공개, OpenAI와 Perplexity가 출판사에 얼마나 피해를 주는지 드러나 [3]	GPTMAGAZINE	03.06	2568	2
545	엔비디아 GeForce RTX 5070 리뷰: "549달러에 4090 수준 성능"? 사실은 아니다 [2]	GPTMAGAZINE	03.05	3741	0
544	낫싱의 폰 3A와 3A 프로, AI로 모든 콘텐츠 정리 기능 탑재 [4]	GPTMAGAZINE	03.05	1162	1
543	AI 클라우드 제공업체 CoreWeave, IPO 신청 발표	GPTMAGAZINE	03.05	323	0
542	LA타임스, 오피니언 기사에 AI 생성 정치 성향 평가 표시 결정 [25]	GPTMAGAZINE	03.05	5268	0
541	SB 1047 저자, 캘리포니아에 새로운 AI 법안 발의 [1]	GPTMAGAZINE	03.05	2192	0
540	"세서미(Sesame)", 실제 대화처럼 자연스러운 첫 음성 비서 등장	GPTMAGAZINE	03.03	314	0
539	오픈AI, 소라(Sora) 비디오 생성기를 챗GPT에 통합 계획 밝혀	GPTMAGAZINE	03.03	425	0
538	구글 세르게이 브린, 직원들에게 "최소 평일 매일" 사무실 출근 촉구	GPTMAGAZINE	03.03	293	0

최근 방문

즐겨찾기

즐겨찾기 갤러리

이미지 올리기 이용안내

갤러리 이슈박스, 최근방문 갤러리

연관 갤러리

개념글 리스트

차단하기

[GPT매거진 갤러리]

갤러리 본문 영역

추천 비추천

댓글 영역

① NFT 발행

② NFT 구매

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

페이지 이동

오른쪽 컨텐츠 영역

알림 설정

알림

디시콘 리스트

디시콘

디시콘 검색결과(0)

인기 디시콘