디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[뉴스줌인] 카카오브레인의 초거대 이미지생성 AI 'RQ-Transformer'란?

IT동아갤로그로 이동합니다. 2022.04.20 16:20:26
조회 58 추천 0 댓글 0
[IT동아 정연호 기자] IT동아 편집부에는 하루에만 수십 건을 넘는 보도자료가 온다. 대부분 새로운 제품, 혹은 서비스 출시 관련 소식이다. IT동아는 이 중에 독자들에게 도움이 될 만한 것 몇 개를 추려 기사화한다. 다만, 기업에서 보내준 보도자료 원문에는 전문 용어, 혹은 해당 기업에서만 쓰는 독자적인 용어가 다수 포함되기 마련이다. 이런 용어에 익숙하지 않은 독자를 위해 IT동아는 보도자료를 해설하는 기획 기사인 '뉴스줌인'을 준비했다.

출처: 카카오브레인 (2022년 4월 19일)

제목: 카카오브레인, 이미지 생성 모델 ‘RQ-Transformer’ 공개


출처=카카오브레인



요약: 카카오브레인에서 자사의 초거대 멀티모달 AI ‘minDALL-E’를 업그레이드한 버전인 이미지 생성 모델 ‘RQ-Transformer’를 오픈소스 커뮤니티 깃허브(GitHub)에 공개했다. 39억개의 매개변수로 구성된 ‘RQ-Transformer’는 3000만 쌍의 텍스트-이미지를 학습한 text-to-image(텍스트-이미지) AI 모델로, 계산 비용을 줄이고 이미지 생성 속도를 높이면서 이미지 품질을 크게 향상시킨 모델이다. 대규모 데이터 세트를 학습한 ‘RQ-Transformer’는 처음 보는 텍스트의 조합을 이해하고, 이에 대응하는 이미지를 생성한다.

해석: 카카오브레인이 공개한 ‘RQ-Transformer’은 이용자가 텍스트를 입력하면, 텍스트를 분석해 그에 맞는 이미지를 생성하는 멀티모달 인공지능(이하 AI) 이미지 생성 모델이다. 멀티모달(Multimodal)이란 글, 이미지, 음성 등 다양한 데이터를 이해할 수 있는 AI 모델을 말한다. 메시지(텍스트)를 분석해 이미지를 만들려면, 결과물로 어떤 이미지가 나와야 하는지를 AI가 이해해야 한다. 그래서 다양한 형식의 데이터를 인식할 수 있어야 하는 것이다. 현재 단계에선 영어로 된 명령어(메시지)로만 이미지를 생성할 수 있다.


RQ-Transformer를 통해 만든



위 사진은 ‘사막에 있는 에펠타워’를 그려 달라는 메시지를 분석해 만든 이미지다. 프랑스 파리에 있는 에펠탑을 사막을 배경으로 해서 새로운 사진을 만든 것이다. 이미지 생성 모델은 일반적인 사진뿐 아니라 현실의 사실, 법칙과 무관한 사진도 생성할 수 있다. RQ-Transformer는 스페인의 초현실주의 화가인 살바도르 달리의 ‘기억의 지속’이란 작품처럼 녹아내리는 시계가 의자에 걸쳐져 있는 비현실적인 사진도 만들 수 있다.

카카오브레인에서 공개한 RQ-Transformer는 매개변수(파라미터)가 39억개에 달한다. 파라미터란 AI가 학습하는 데이터의 양을 말한다. 이 파라미터가 많아질수록 AI 성능이 좋아진다. 현재 언론에서 보도되는 수천 억 단위의 파라미터를 가진 AI는 보통 언어를 이해하고 생성하는 언어 모델이라고 한다. 카카오브레인의 RQ-Transformer는 국내에선 가장 많은 파라미터를 가진 이미지 생성 모델이다. 이는 세계적인 이미지 생성 모델과 견주어도 높은 수치다.

RQ-Transformer의 특이점은 모두 카카오브레인의 독자적인 기술로 개발된 AI라는 것이다. 이전 버전인 minDALL-E(민달리)는 오픈 소스(누구나 이용할 수 있도록 공개된 프로그램 소스 코드)를 기반으로 개발됐다. RQ-Transformer는 민달리 대비 모델 크기가 3배, 이미지 생성 속도와 학습 데이터 세트 크기는 2배 늘어났다. 기존의 이미지 생성 모델이 2차원 코드맵으로 표현됐다면, RQ-Transformer는 3차원 코드맵으로 이미지를 생성하도록 설계됐다. 사진은 3차원(3D)인 현실을 2차원(2D)으로 표현하기 때문에 입체감이 떨어진다. 카카오브레인의 AI는 사진 속 대상을 쪼개서 실제 현실과 같이 3D로 인식해 학습한다. 덕분에 RQ-Transformer는 이미지를 생성할 때 사진 속 대상들을 입체적으로 구현할 수 있게 된다.

카카오브레인 관계자는 “소상공인들이 언어 모델 AI를 리뷰에 답변이 자동으로 달리게 하거나, 상품 소개 글을 생성하는 데 사용하는 것처럼 이미지 생성 모델 AI도 고도화와 상용화가 된다면 널리 쓰일 수 있을 것”이라고 말했다. RQ-Transformer도 추후엔 소상공인이 메뉴판에 맞는 사진을 만들거나, 그림 실력이 없는 사람이 원하는 바를 그림으로 표현하는 것 등에 활용될 수 있을 것으로 보인다.

글 / IT동아 정연호 (hoho@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)



▶ AI 산업 트렌드와 발전상 한눈에…제5회 국제인공지능대전▶ 요즘 2030세대는 AI로 투자한다.. 다만, 전문가는 "고수익 좇긴 어렵다" 당부▶ 인공지능의 진화, 설명·목소리만 듣고 사진 한 장 뚝딱



추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 연예인 안됐으면 어쩔 뻔, 누가 봐도 천상 연예인은? 운영자 24/06/17 - -
1187 [IT애정남] 해외 직구한 삼성폰, 국내에서 A/S 가능? [5] IT동아갤로그로 이동합니다. 22.05.17 1560 2
1186 인공지능으로 해상도를 끌어올리다, 'AMD 피델리티 FX 2.0'이란? IT동아갤로그로 이동합니다. 22.05.17 141 0
1185 [성공의 키, 인스타그램 마케팅] 1부 - 인스타그램이 비즈니스에 미치는 영향 IT동아갤로그로 이동합니다. 22.05.17 109 0
1184 美 빅테크…클라우드·친환경에 웃고, 숏폼 컨텐츠·대외불확실에 울다 IT동아갤로그로 이동합니다. 22.05.16 112 0
1183 [뉴스줌인] 중급형 그래픽카드 시장의 ‘신상’ 라데온 RX 6650 XT [7] IT동아갤로그로 이동합니다. 22.05.16 3266 3
1182 트위터와 '밀당' 중인 일론 머스크, 속내는? [6] IT동아갤로그로 이동합니다. 22.05.16 2359 0
1181 [IT신상공개] 나를 위한 AI 사진사가 담겼다, 캐논 파워샷 픽 IT동아갤로그로 이동합니다. 22.05.16 861 2
1180 대화하며 성장하는 SKT의 새 AI 비서, ‘에이닷’ IT동아갤로그로 이동합니다. 22.05.16 125 0
1179 9년만에 돌아온 모토로라··· 이동통신 '제3의 길' 열 가능성은? [19] IT동아갤로그로 이동합니다. 22.05.16 3131 2
1178 메타 컬러·고화질 증강현실 헤드셋 ‘프로젝트 캄브리아’ 2022년 등장 IT동아갤로그로 이동합니다. 22.05.16 129 0
1177 [주간투자동향] 버킷플레이스, 2,300억 원 규모의 신규 투자 유치 IT동아갤로그로 이동합니다. 22.05.16 114 0
1176 무너진 루나·테라…'알고리즘 스테이블 코인'은 허상이었을까? [1] IT동아갤로그로 이동합니다. 22.05.13 195 0
1175 업무의 연속성 유지를 돕는 협업툴 '노션' IT동아갤로그로 이동합니다. 22.05.13 119 0
1174 IoT 시장의 ‘실세’ Arm, 개발 생태계 강화까지 이끈다 IT동아갤로그로 이동합니다. 22.05.13 171 0
1173 '백업 계획이 곧 신뢰도'··· 전문가일수록 나스(NAS)를 써야 하는 이유는? IT동아갤로그로 이동합니다. 22.05.13 132 0
1172 [검색광고 AtoZ] ③ 키워드 자동 입찰, 시간·지역·매체별 정밀 전략 세워라 IT동아갤로그로 이동합니다. 22.05.13 110 0
1171 [스타트업人] “실수는 할 수 있다. 다만, 반복하지 않을 뿐이다”, 테사 개발팀 이야기 IT동아갤로그로 이동합니다. 22.05.13 105 0
1170 슈나이더 일렉트릭, SF6 대신 공기 이용하는 친환경 배전반 제품군 선보여 IT동아갤로그로 이동합니다. 22.05.13 88 0
1169 [리뷰] 다재다능 32인치 4K 모니터, 큐닉스 QX321U 4K IPS PD [7] IT동아갤로그로 이동합니다. 22.05.12 993 1
1168 내연기관차 퇴출 임박…친환경차 시대 준비하는 소재, 부품 기업들 [8] IT동아갤로그로 이동합니다. 22.05.12 1359 0
1167 [앱으리띵] 3가지 운동을 회원권 하나로? 운동 통합 멤버십 서비스 '다짐' IT동아갤로그로 이동합니다. 22.05.12 85 0
1166 퓨처플레이 권오형 투자 파트너 “창업가들이 마음껏 뛰놀 수 있는 생태계를 만듭니다” IT동아갤로그로 이동합니다. 22.05.12 92 0
1165 [모빌리티 인사이트] 사람을 살리는 자율주행, 수색 구조로봇 [1] IT동아갤로그로 이동합니다. 22.05.12 1263 0
1164 샤프, 소니 등 日 스마트폰 '카메라 강화' 승부수 통할까 [13] IT동아갤로그로 이동합니다. 22.05.12 1145 7
1163 양자보안폰, 무엇이 다를까 IT동아갤로그로 이동합니다. 22.05.11 273 0
1162 [리뷰] 1500R 곡률로 끌어올린 몰입감, 카멜 CM3210GQC 게이밍 모니터 [2] IT동아갤로그로 이동합니다. 22.05.11 959 0
1161 핀테크가 쏘아올린 공... 금융권의 디지털 전환 가속화 IT동아갤로그로 이동합니다. 22.05.11 109 0
1160 레드햇, ‘레드햇 엔터프라이즈 리눅스 9’ 출시로 오픈소스 생태계 강화 IT동아갤로그로 이동합니다. 22.05.11 88 0
1159 한국에 진심인 MS, 로컬 데이터센터로 국내 비즈니스 솔루션 시장 공략 박차 IT동아갤로그로 이동합니다. 22.05.11 101 0
1158 [스타트업-ing] 마스오토 박일수 대표, “트럭용 자율주행을 개발하는 이유” IT동아갤로그로 이동합니다. 22.05.11 105 0
1157 [IT신상공개] 소형 항공 촬영 드론 DJI 미니 3 프로, 미니2와의 차이는? [3] IT동아갤로그로 이동합니다. 22.05.11 677 2
1156 [홍기훈의 ESG 금융] ESG가 베타에 미치는 영향 Part 8: 아폴로 병원 분석에 쓴 ESG 위험 요인 IT동아갤로그로 이동합니다. 22.05.11 64 0
1155 스마트폰과 외부 마이크, 어떻게 연결해야 하나요? IT동아갤로그로 이동합니다. 22.05.10 262 0
1154 사면초가에 처한 배달 플랫폼 [20] IT동아갤로그로 이동합니다. 22.05.10 2690 2
1153 [리뷰] M.2 SSD 발열 잡는 특효약, 마이크로닉스 워프 실드 시리즈 IT동아갤로그로 이동합니다. 22.05.10 111 0
1152 AWS 서밋 코리아 개막··· 이마트·당근마켓 등 국내 클라우드 성공 사례 공유 IT동아갤로그로 이동합니다. 22.05.10 80 0
1151 NFT 품는 인스타그램, 메타는 구세주 될 수 있을까 IT동아갤로그로 이동합니다. 22.05.10 95 0
1150 [IT신상공개] '가정용 초단초점 중 밝기 최고 수준'… LG 시네빔 레이저 4K HU915QE IT동아갤로그로 이동합니다. 22.05.09 161 0
1149 사무직 직원 절반은 퇴사 고려 중..."직원 만족도 높이려면 반복업무 자동화 필요" [19] IT동아갤로그로 이동합니다. 22.05.09 2608 2
1148 [리뷰] 진보된 성능, 아쉬운 존재감. AMD 라이젠 9 6900HS [8] IT동아갤로그로 이동합니다. 22.05.09 1945 3
1147 [스타트업 in 과기대] 스콘박스, ‘드론 몰카’ 걱정은 이미 눈앞, 대응책에 주목하라 [12] IT동아갤로그로 이동합니다. 22.05.09 995 2
1146 금융데이터거래소 개소 2년…성과와 과제는 IT동아갤로그로 이동합니다. 22.05.09 91 0
1145 1분기 세계 태블릿·크롬북 판매량 감소, 교육 수요 늘 하반기 회복 가능성 IT동아갤로그로 이동합니다. 22.05.09 120 0
1144 퀄컴, 코로나로 멈췄던 IT 투어 재개한다…"한국 학생들 미국 본사에 초청" [3] IT동아갤로그로 이동합니다. 22.05.09 1793 3
1143 [주간투자동향] SK스퀘어-SKT, 글로벌 게임사 ‘해긴’에 500억 원 공동 투자 IT동아갤로그로 이동합니다. 22.05.09 58 0
1142 ‘위드 코로나’로 활기 더한 모빌리티 플랫폼, 곳곳 ‘암초’도 IT동아갤로그로 이동합니다. 22.05.06 80 0
1141 아키핀 "영어 교육 재밌어야 한다, 방법은 체험형 게임" IT동아갤로그로 이동합니다. 22.05.06 96 0
1140 [리뷰] 12세대 인텔 코어 시리즈의 '군계일학', 인텔 코어 i9-12900KS [1] IT동아갤로그로 이동합니다. 22.05.06 166 0
1139 변신·진화하는 차세대 액션 캠, 인스타360 원 RS(One RS) IT동아갤로그로 이동합니다. 22.05.06 101 0
1138 [스타트업人] 개발만큼 중요한 것은 '고객과의 소통', 당근마켓 서비스 운영 이야기 [13] IT동아갤로그로 이동합니다. 22.05.06 2613 1
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2