GPT4o와 GPT4 비교해 보니··· '사람 대 AI의 근본적인 접근 방식 바꿔'

IT동아 · 2024.05.21 16:50:11

[IT동아 남시현 기자] 2024년 인공지능(이하 AI) 기술의 쟁점은 멀티모달(Multi modal)이다. 멀티모달은 다중을 뜻하는 멀티(Multi)와 인체의 감각적 양상을 뜻하는 모달리티(Modality)의 합성어로, 자연어, 청각, 시각 등 여러 종류의 데이터를 동시에 처리해 다각적으로 결과를 도출하는 방식을 뜻한다. AI의 멀티 모달은 그림을 보고 자연어로 설명한다거나, 이미지를 보고 노래를 작곡하는 형태로 동작하며, 향후 AI의 성능과 활용도, 완성도를 결정짓는 핵심 요소가 된다.

그리고 지난 5월 13일(현지시각), 오픈AI는 기존 GPT-4에 더 빨라진 속도와 이해 성능, 최초의 멀티모달까지 복합적으로 적용한 GPT-4o 모델을 공개했다. GPT-4o의 o는 모든 것의, 모든 방식으로 라는 뜻을 가진 영어단어 옴니(Omni)의 약자로, 훨씬 더 자연스럽고 빠르며, 공감각적으로 데이터를 인식한다.

오픈AI가 지난 13일, GPT-4에 멀티모달을 접목한 GPT-4o를 공개했다 / 출처=오픈AI

출시 1주일이 지난 지금, GPT-4o는 GPT-4의 한계로 지목됐던 느린 속도나 이해 능력 등을 해결했다는 평가를 받으며 생성형 AI 업계의 새로운 기준으로 떠오르고 있다. 지난 한 두 달 새 가공할만한 문장 적응력을 가진 앤스로픽 클로드 3, 무료임에도 최고 수준의 성능을 갖춘 메타 라마3, 기억력을 지닌 구글 아스트라까지 다양한 AI가 출시되었음에도, 유독 GPT-4o만이 시장의 중심이 되는 이유는 무엇일까.

기계의 시각과 해답을 다양화한 ‘GPT-4o’

멀티모달을 풀어서 이해해 보자. 우리가 ‘사과’라는 단어를 보고 반짝이는 빨간색 껍질에 노란색 속살이 있는 동그란 과일이라는 걸 떠올릴 수 있는 이유는 사과를 물리적으로 접해보고, 맛보고, 경험했고, 이것이 ‘사과’라는 단어로 언어적 합의가 되어있음을 알기 때문이다. 그런데 경험과 학습 없이는 단어와 사물의 인과관계를 알 수 없다. 당장 ‘캄부카’나 ‘자탁’라는 단어를 듣고 이게 뭔지 설명하라고 하면, 이것을 학습하고 경험하지 않은 사람은 이를 설명할 수 없다.

GPT에게 ‘사과’를 어떻게 이해하는지에 대한 식별 방법을 설명하라고 했다. 우리는 사과를 보고 사과를 떠올리지만, AI는 대량의 데이터와 학습 알고리즘을 통해 패턴을 인식하고 이를 학습한 결과로 사과를 도출한다 / 출처=IT동아

AI 역시 마찬가지다. 인간은 사고를 통해 자연어를 물건으로 인식하는 멀티모달을 수행하지만, AI에게 있어 ‘사과’는 사과로 규정된 데이터를 식별하고 연결하는데 쓰이는 코드일 뿐이다. 여기에 멀티모달을 적용하면 텍스트 정리를 넘어서 시각적 데이터를 통해 형태나 질감, 사과를 먹는 동영상 등을 통한 자료 등의 데이터를 서로 연결하고 상호작용해 설명하게 된다.

즉 GPT-4o가 강조하는 멀티모달은 인식 방법의 변화다. GPT-4o는 자연어와 오디오 및 이미지, 비디오를 모든 조합으로 입력해 인식하고, 다시 조합해 데이터를 산출한다. 즉 어떤 이미지에 대해 물으면 텍스트로 답하고, 소리를 들으면 어떤 소리인지 말로 설명하는 방식으로 데이터에 접근한다. 단순히 설명에 그치지 않고, 각각의 데이터를 세세하게 유기적으로 연결하고 관리해 결과의 품질을 끌어올린다.

오픈AI가 GPT-4o의 예시를 보여주는 여러 영상 중 ‘Andy와 함께한 GPT-4o’가 가장 좋은 예시다. 영상에서 시각장애인인 앤디는 영국 버킹엄 궁전 근처에서 본인이 보고 있는 방향의 사진을 GPT-4o에 넣고 실시간으로 설명을 부탁한다. 그러자 GPT는 “버킹엄 궁전 위에 로열 스탠더드 깃발이 있는데, 이는 군주가 궁전에 있다는 신호입니다”라면서, “왕이 집에 있다는 게 얼마나 신나는 일인가요?”라고 덧붙인다.

다음 장면에서 앤디는 “주황색 불을 켜고 오는 택시가 있는지를 알려달라”라고 하니, GPT가 “방금 한 대를 발견했습니다. 도로 왼쪽에서 당신 방향으로 오고 있는데요, 손을 흔들 준비를 하세요”라면서, “택시를 잘 잡으셨네요, 이제 갈 준비가 되셨어요. 강아지가 안전하게 여행할 수 있도록 잘 이끌 거예요”라고 답한다. 이 영상에서 GPT-4o는 시각 정보를 실시간으로 문자로 변환하는 건 물론, 인간의 여러 동작이나 상호작용까지 추측하고 시각장애인 안내견의 역할까지 설명한다.

또 한 가지 돋보이는 점은 실시간 반응성이다. 음성 모드를 사용했을 때 GPT-3.5의 평균 응답 속도는 2.8초, GPT-4는 5.4초로 시간차가 있었다. 하지만 GPT-4o의 오디오 입력은 232밀리 초 이내며, 실제 사람이 내놓는 것과 비슷한 속도로 내놓는다. 또한 목소리에 담기는 부차적인 정보인 음색이나 추임새, 톤과 배경까지 출력해 호소력을 높였다. 멀티모달을 넘어 감정에서 나오는 말투나 습관 같은 인간 고유의 영역까지 답습하려 한다.

GPT-4o, 얼마나 나아졌을까?

JPG 형식의 파일을 그래프로 변환하라고 주문했다. 매개변수에 큰 차이가 없는지 산출 결과는 거의 다르지 않았다 / 출처=IT동아

GPT-4o와 GPT-4를 활용해 다양한 문제를 해결했다. 우선 2023년 4분기 전 세계 서버시장 수익 및 시장 점유율 자료를 그래프로 전환했다. 해당 파일은 기업 명과 점유율, 퍼센트가 있지만 문서가 아닌 JPG 형태여서 이 자체로 그래프 화할 수 없다. GPT-4와 GPT-4o 둘 다 이미지에서 텍스트를 광학 문자 인식한 뒤 데이터를 산출하고, 이를 토대로 점유율 그래프를 생성했다. 그래프 자체는 점유율 자료와 동일하며, 점유율 순은 아니지만 시인성은 좋다.

GPT-4는 각 회사의 수익과 점유율 곡선만 설명하고, 델 테크놀로지스와 HPE의 점유율 우위를 간단히 설명한 게 전부다. GPT-4o는 델과 HPE, 슈퍼마이크로, 카사 시스템즈 등 다른 주요 기업의 점유율과 수익률도 함께 설명한다. 그래프 생성 자체는 동일하나, 데이터 산출 속도와 분량, 텍스트 품질 면에서는 GPT-4o가 좀 더 상세하고 좋다.

그렇다면 데이터를 만들어내는 성능은 어떨까. ‘일회용으로 동작하면서, 두 번 사용하면 자동으로 꺼지고, 앱을 다시 사용했을 때 이전에 사용했던 계산 기록이 남아있도록 하는 앱을 러스트 코드로 리눅스에서 동작하도록 만들라’는 주문을 GPT-4와 GPT-4o에 각각 지시했다. 내용 자체는 쉽지만 주문이 복잡한데, GPT-4는 관련 코드를 내놓는 데 약 60초의 시간이 걸렸다. 이때 GPT-4o는 두 배가량 길고 복잡한 코드를 생성했으나, 30초 만에 생성을 끝냈다.

앞서 두 테스트에서 GPT-4와 GPT-4o의 속도가 다른 이유는 GPT-4o는 텍스트, 비전인식, 오디오 전반에 걸쳐 모든 입력과 출력이 동일한 신경망에서 처리되기 때문이다. GPT-4는 텍스트와 비전인식, 오디오 등 각각의 채널이 따로 처리된 뒤 병합되는 방식이어서 느렸다. 오픈AI는 GPT-4o가 동일 신경망에서 동작하는 첫 모델인 만큼, 이번에 보여준 기능들은 아직 표면적이며 탐색하는 단계에 불과하다고 말한다.

GPT-4o의 핵심 기능인 음성과 반응 속도를 복합적으로 테스트했다. 테스트에 쓰인 사진은 우리나라의 사계절 은하수를 여섯 단계로 나눈 데이터로, GPT-4o가 이를 처리하기 위해서는 이미지 파일을 광학 문자 인식한 다음, 관련 자료를 정리하고 음성으로 읽어야 한다. 다만 오픈AI가 GPT-4o의 실시간 이미지-음성 출력 기능은 아직 출시하지 않아 이미지 결과를 낸 다음, 문장을 재생하는 방식으로 테스트했다.

테스트에서 GPT-4o는 약 15초 만에 모든 이미지 및 결과에 대한 해답을 냈고, GPT-4로는 동일 분량이 약 30초 정도 걸렸다. 음성 재생은 엠버, 스카이, 코브, 브리즈, 주니퍼 다섯 모델을 고를 수 있으며, 영어와 한국어 모두 쓸 수 있다. 예시에서는 주니퍼로 영문을 읽었는데, 마치 영어 듣기 평가를 하는 듯만큼 정확하게 문장을 읽는다. 게다가 같은 단어도 문장에 따라 음역대를 다르게 하는 등 기계가 아닌 사람이 발음하는 것에 가까운 음색을 낸다.

오픈AI의 GPT-4o 소개 페이지에서 멀티모달이 적용된 다양한 사례들을 확인할 수 있다 / 출처=IT동아

GPT-4o는 몇 주 내로 알파 버전의 새 음성 모드가 출시되며, 반복적으로 새 기능들이 추가된다. API는 이미 제공되어 가격은 절반에, 속도 제한은 다섯 배로 더 높아졌다. 조만간 카메라로 사물을 보여주면, 실시간으로 응답을 받는 것도 가능해진다. 앞서 시각장애인의 활동을 돕는 것부터, 음식을 찍는 것만으로 레시피를 알 수 있고, 강연이나 교육 등을 보여주면 즉석에서 해답과 자료 검색을 제공한다.

또 멀티모달 측면에서 동요를 듣고 동화를 만들고, 엑셀 파일의 내용을 음성 메시지로 만들고, 손짓으로 물건을 가리키면 원하는 외국어로 알려주는 등으로 활용하게 된다. GPT-4가 언어로 소통했다면, GPT-4o부터는 시각, 청각, 그리고 이를 텍스트나 그림으로 그려내는 방식으로 얘기하게 된다.

여전히 빠지지 않는 논쟁, 위험성

GPT-4o의 텍스트 평가 성능 테스트, 학부생 수준의 지식(MMLU)과 대학원 수준의 추론(GPAQ), 수학, 함수 생성 능력(HumanEval) 등 다양한 테스트에서 최고 점수를 얻었다 / 출처=오픈AI

GPT-4o로 멀티모달의 새로운 가능성이 열렸지만, 그만큼 더 AI의 위험성은 가중된다. 지난 2월, 가트너는 2026년에는 얼굴 생체 인식 솔루션을 겨냥한 AI 딥페이크(Deepfake) 공격으로 인해 기업의 30%가 신원 확인 및 인증 솔루션을 더 이상 단독으로 신뢰할 수 없게 될 것이라는 자료를 냈다. 즉 GPT의 멀티모달 기능을 통해 누구나 손쉽게 실시간으로 딥페이크를 만든다던가, 코딩 기능을 통해 피싱 자동화나 무차별 공격 등도 해낼 수 있게 된다.

이를 방지하기 위해 오픈AI는 지난해부터 70여 명의 외부 전문가로 구성된 ‘레드팀’을 구성해 AI의 사전안전 및 위험 교육 등을 실시하고 있으나, 반대로 지난 주 AI 윤리를 다루는 ‘수퍼얼라인먼트’ 팀을 해체하는 등 우려의 목소리가 나오고 있다. 안전과 지침은 마련하나, 수익성을 저해하는 윤리 문제는 고려하지 않겠다는 의미로 해석된다.

구글 역시 지난 2018년, GPT-4o처럼 사실적인 목소리를 내는 AI를 공개했다가 철회한 사례가 있다 / 출처=구글

한편 오픈 AI는 인간 서비스와 AI 서비스와의 경계를 무너뜨릴 예정이다. 2018년 구글 I/O 당시 구글은 구글어시스턴트가 목소리 주인을 대신하는 ‘듀플렉스’ 기능을 선보였다. 이때 듀플렉스가 사람의 추임새 등을 흉내 내고, 목소리가 지나치게 사실적이어서 AI와 사람을 구분하기 어렵다는 비난이 나왔고, 구글은 즉시 서비스를 포기했다. 하지만 GPT-4o로 동일한 접근을 하는 것에 대해서는 별 반응이 없다. 장기적으로는 여러 문제를 낳을 수 있는 만큼 철저한 안전 관리가 필요하다.

이미 전 세계적으로 GPT-4o에 대한 반응이 뜨겁다. 멀티모달을 통해 AI가 인간의 명령을 더 정확하게 이해하고, 다양하게 표현한다. AI는 더 많은 활용도를 부여받고, 우리의 곳곳에서 일상을 바꿔나갈 것이다. 이번에 공개된 GPT-4o가 ‘멀티모달 측면에서 탐색, 표면적인 수준’이라면 앞으로 몇 세대 뒤의 GPT는 확실히 인간의 영역을 대체하고 나설 것이다.

글 / IT동아 남시현 (sh@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)

번호	제목	글쓴이	작성일	조회	추천
설문	힘들게 성공한 만큼 절대 논란 안 만들 것 같은 스타는?	운영자	24/06/10	-	-
이슈	[디시人터뷰] 웃는 모습이 예쁜 누나, 아나운서 김나정	운영자	24/06/11	-	-
3929	[시승기] 원형 OLED 탑재·차체 키워 7년 만에 돌아온 ‘뉴 미니 컨트리맨’	IT동아	18:01	13	0
3928	루나레이크·애로우레이크로 이원화된 인텔 CPU, 라인업 구분은?	IT동아	16:45	14	0
3927	금융위원회 “가상자산 사업자 영업 종료 규제 강화한다”	IT동아	15:46	236	0
3926	서울 중구-동국대 캠퍼스타운, 대학과 지역이 함께 고민하는 자원순환 문제	IT동아	14:36	16	0
3925	[SBA x IT동아] ‘마이크로바이옴’으로 보다 나은 삶 만들 것, 윤여민 메가랩 대표	IT동아	14:08	11	0
3924	[스타트업리뷰] 건설인력 노무관리 원 클릭 시스템, 웍스메이트 ‘가다오피스’	IT동아	13:52	15	0
3923	[농업이 IT(잇)다] 네오프로틴 “노인 건강의 핵심은 근력 개선, 해법은 마육 단백질에 있습니다”	IT동아	11:01	15	0
3922	차트분석 도구 ‘트레이딩뷰’ 파고들기 - 15	IT동아	06.13	30	0
3921	[시승기] 세단의 승차감 구현한 캐딜락 첫 전기 SUV ‘리릭’	IT동아	06.13	31	0
3920	[SBA x IT동아] 아트랩 “피부 좋아지는 법, AI가 찾아드립니다”	IT동아	06.13	37	0
3919	[스타트업 첫걸음] 창업 아이디어 검증을 위한 고려사항	IT동아	06.13	711	0
3918	[기술영업人] AI 확산의 시작과 끝을 함께하는 'AMD코리아'의 영업 전선	IT동아	06.13	325	1
3917	토요타 등 日 5개 자동차 제조사 ‘품질 인증 조작’ 파문 [2]	IT동아	06.12	388	3
3916	[리뷰] 넷기어 MS108TUP, 2.5G 이더넷에 60W PoE까지 품은 특별한 스위치	IT동아	06.12	47	0
3915	"먹통 사태 교훈 삼아 안정성 극대화"…카카오 첫 자체 데이터센터 살펴보니 [3]	IT동아	06.12	469	0
3914	장대익 가천대 스타트업칼리지 학장 “N번째 인생 전환 이끌 기업가 정신 전파”	IT동아	06.12	56	0
3913	철저한 인텔 제품 관리의 산실, 대만 인텔 OEM 연구소 가보니 [6]	IT동아	06.12	1605	0
3912	[SBA x IT동아] 세컨드팀 “검증된 해외 개발자, 슈퍼코더에 있습니다”	IT동아	06.12	55	0
3911	[자동차와 法] 자동차와 무단횡단자의 과실 비율에 대하여 [1]	IT동아	06.11	874	0
3910	애플, 오픈AI와 밀월 시각에 선긋기··· '제 길 가는 애플 인텔리전스' [1]	IT동아	06.11	612	0
3909	[뉴스줌인] 부쩍 커진 이동식 에어컨 시장, ‘AI’와 ‘듀얼호스’로 방점 찍은 LG전자	IT동아	06.10	518	0
3908	[정구태의 디지털자산 리터러시] 2. 자산 규제와 진흥의 균형이 필요한 시점	IT동아	06.10	90	0
3907	JC? SA? 헷갈리는 도로 표지판 숙지하기! [이럴땐 이렇게!]	IT동아	06.10	788	3
3906	컴퓨텍스 2024에서 눈에 띈 강소기업들 “한국시장 기대 커” [1]	IT동아	06.07	346	0
3905	[생성 AI 길라잡이] 생성 AI 학습 과정에서 발생하는 빈번한 분쟁	IT동아	06.07	168	0
3904	차트분석 도구 ‘트레이딩뷰’ 파고들기 - 14	IT동아	06.07	160	0
3903	글로벌 기업도, 유망 스타트업도…“어도비 서브스턴스 3D로 디지털 혁신 가능해”	IT동아	06.07	1050	0
3902	[농업이 IT(잇)다] 그랜트 “농업인의 고민 해결하는 친환경 과일 포장재, 딴딴박스”	IT동아	06.07	147	0
3901	노랑풍선, "NHN두레이 전사 도입으로 조직 내 업무 환경 통일했죠"	IT동아	06.07	139	0
3900	국내 장수 만화 IP 비즈니스의 모범 사례가 되길... '열혈강호' 30주년 콜라보 카페 방문기 [24]	IT동아	06.07	2487	2
3899	시놀로지 “눈 높은 한국 고객들 의견 수렴하며 성과 거둬”	IT동아	06.06	173	0
3898	노트북 출시 20주년 맞은 MSI, 컴퓨텍스 부스도 ‘노트북 풍년’ [14]	IT동아	06.06	7440	4
3897	‘모든 곳에 인공지능’을 위한 시작, 인텔 AI 서밋 서울 개최	IT동아	06.05	218	0
3896	시놀로지, 엔터프라이즈 솔루션 강화 ‘잰걸음’	IT동아	06.05	166	0
3895	[시승기] ‘K5 LPG 하이브리드’로 500km 주행 후 실연비 살펴보니	IT동아	06.05	178	0
3894	퀄컴 스냅드래곤X 시리즈, AI PC넘어 AI 산업도 노린다	IT동아	06.05	187	0
3893	국내 가상자산 커뮤니티 “텔레그램·카카오톡 활성화, 단기 시세에 민감”	IT동아	06.05	155	0
3892	“디지털 혁신 이끈 3D 기술, AI로 문턱 더 낮아질 것“…어도비 서브스턴스 데이에서 엿본 미래	IT동아	06.05	161	0
3891	딥엑스, 엣지 AI용 NPU 'DX-M1'으로 중국·대만 시장에서 두각	IT동아	06.05	181	0
3890	SK하이닉스, 컴퓨텍스 2024서 GDDR7, 자체 컨트롤러 등 전시	IT동아	06.05	176	0
3889	MSI, 컴퓨텍스 2024에 ‘AI+ PC’ 대거 선보이며 ‘기선제압’	IT동아	06.05	138	0
3888	‘연 단위 출시, 네트워크 대역 확장’ 인공지능 가속기 경쟁 달아오른다	IT동아	06.04	150	0
3887	인텔 컴퓨텍스 2024 부스 가보니··· 'AI PC 사례·제온 6 공개 눈길' [2]	IT동아	06.04	1619	0
3886	컴퓨텍스 2024 MSI 부스, ‘클로’ 8인치와 ‘AMG’ 노트북 공개로 ‘북적’	IT동아	06.04	140	0
3885	펫 겔싱어, "2030년 세계 2위 파운드리 목표··· 다음 주 18A 칩 구동"	IT동아	06.04	204	0
3884	인텔 제온6·가우디3·루나레이크까지 총 출동··· '시장 주도권 노린다'	IT동아	06.04	146	0
3883	전기차 캐즘에도 정면 돌파 택한 ‘현대차그룹’	IT동아	06.04	138	0
3882	"AI PC 시대, 피처폰에서 스마트폰 전환만큼 혁명적 도약" [1]	IT동아	06.03	693	1
3881	韓 자동차 등대공장 0개...제조공정 혁신 시급	IT동아	06.03	162	0
3880	3세대 라이젠 AIㆍ라이젠 9000 시리즈, AMD 새 CPU 제품군 대거 공개 [7]	IT동아	06.03	705	1

최근 방문

즐겨찾기

즐겨찾기 갤러리

갤러리 이슈박스, 최근방문 갤러리

연관 갤러리

개념글 리스트

차단하기

[IT동아 갤러리]

갤러리 본문 영역

기계의 시각과 해답을 다양화한 ‘GPT-4o’

GPT-4o, 얼마나 나아졌을까?

여전히 빠지지 않는 논쟁, 위험성

▶ 채팅창 넘어 일상으로…'만능 AI 비서' 시대 온다▶ 인포플라 “대답만 하던 기존 AI의 한계, VLM 기반 자동화로 극복”▶ 6월 인공지능ㆍ반도체 시장 엔비디아 손에 달렸다

추천 비추천

댓글 영역

① NFT 발행

② NFT 구매

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

페이지 이동

오른쪽 컨텐츠 영역

알림 설정

알림

디시콘 리스트

디시콘

디시콘 검색결과(0)

인기 디시콘

지갑 연결

▶ 채팅창 넘어 일상으로…'만능 AI 비서' 시대 온다 ▶ 인포플라 “대답만 하던 기존 AI의 한계, VLM 기반 자동화로 극복”▶ 6월 인공지능ㆍ반도체 시장 엔비디아 손에 달렸다