디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

아마존, 새로운 AI 음성 모델 'Nova Sonic' 공개

GPTMAGAZINE갤로그로 이동합니다. 2025.04.09 03:18:32
조회 153 추천 0 댓글 0


아마존이 화요일, 음성을 원활하게 처리하고 자연스러운 음성을 생성할 수 있는 새로운 생성형 AI 모델 'Nova Sonic'을 발표했다. 아마존에 따르면 Nova Sonic은 속도, 음성 인식, 대화 품질을 측정하는 벤치마크에서 OpenAI와 Google의 최신 음성 모델들과 경쟁력 있는 성능을 보여준다고 밝혔다.

 

 

Nova Sonic은 ChatGPT의 음성 모드와 같은 최신 AI 음성 모델에 대한 아마존의 대응으로, 이는 초기 아마존 알렉사 시절의 경직된 모델보다 더 자연스러운 대화가 가능하다. 최근의 기술적 혁신으로 인해 알렉사와 애플의 시리와 같은 기존 모델들은 비교적 부자연스럽게 느껴지게 되었다.

 

 

Nova Sonic은 아마존의 기업용 AI 애플리케이션 개발 플랫폼인 Bedrock을 통해 새로운 양방향 스트리밍 API로 제공된다. 아마존은 보도자료를 통해 Nova Sonic이 "시장에서 가장 비용 효율적인" AI 음성 모델이며, OpenAI의 GPT-4o보다 약 80% 저렴하다고 밝혔다.

아마존의 AGI 수석 부사장 겸 수석 과학자인 로힛 프라사드에 따르면, Nova Sonic의 일부 구성 요소는 이미 아마존의 업그레이드된 디지털 음성 비서인 Alexa+에 적용되고 있다.

 

 

인터뷰에서 프라사드는 Nova Sonic이 알렉사를 구성하는 기술적 기반인 "대규모 오케스트레이션 시스템"에 대한 아마존의 전문성을 바탕으로 개발되었다고 설명했다. 경쟁 AI 음성 모델과 비교할 때, Nova Sonic은 사용자 요청을 다양한 API로 라우팅하는 데 뛰어나다고 프라사드는 말했다. 이 기능은 Nova Sonic이 인터넷에서 실시간 정보를 가져와야 할 때, 독점 데이터 소스를 분석하거나 외부 애플리케이션에서 조치를 취해야 할 때 적절한 도구를 사용할 수 있도록 돕는다.

 

 

아마존에 따르면, 양방향 대화 중에 Nova Sonic은 화자의 일시 중지와 중단을 고려하여 "적절한 시간"에 말하기를 기다린다. 또한 개발자가 다양한 애플리케이션에 사용할 수 있는 사용자 음성의 텍스트 기록도 생성한다.

 

 

프라사드에 따르면, Nova Sonic은 다른 AI 음성 모델보다 음성 인식 오류가 적으며, 이는 사용자가 중얼거리거나, 말을 잘못하거나, 소음이 많은 환경에서도 상대적으로 사용자의 의도를 잘 이해한다는 것을 의미한다. 다국어와 방언에 걸친 음성 인식을 측정하는 벤치마크인 Multilingual LibriSpeech에서 Nova Sonic은 영어, 프랑스어, 이탈리아어, 독일어, 스페인어에서 평균 단어 오류율(WER)이 4.2%에 불과하다고 아마존은 밝혔다. 이는 이 언어들에서 모델이 생성한 약 100개 단어 중 4개만이 인간의 기록과 다르다는 의미다.

 

 

여러 참가자가 있는 시끄러운 상호작용을 측정하는 또 다른 벤치마크인 Augmented Multi Party Interaction에서, 아마존은 Nova Sonic이 WER 측면에서 OpenAI의 GPT-4o-transcribe 모델보다 46.7% 더 정확하다고 말했다. Artificial Analysis의 벤치마킹에 따르면, Nova Sonic은 평균 인지 지연 시간이 1.09초로 업계 최고의 속도를 자랑한다. 이는 1.18초에 응답하는 OpenAI의 Realtime API를 구동하는 GPT-4o 모델보다 빠르다.

 

 

프라사드는 Nova Sonic이 아마존이 "인간이 컴퓨터에서 할 수 있는 모든 일을 할 수 있는 AI 시스템"으로 정의하는 AGI(인공 일반 지능)를 구축하려는 더 넓은 전략의 일부라고 말했다. 앞으로 아마존은 이미지, 비디오, 음성을 포함한 다양한 모달리티를 이해할 수 있는 더 많은 AI 모델과 "물리적 세계로 사물을 가져올 때 관련된 다른 센서 데이터"를 출시할 계획이라고 프라사드는 말했다.

 

 

프라사드가 감독하는 아마존의 AGI 부서는 최근 회사의 제품 전략에서 더 큰 역할을 맡고 있는 것으로 보인다. 지난주, 아마존은 Alexa+와 아마존의 Buy for Me 기능의 요소를 구동하는 것으로 보이는 브라우저 사용 AI 모델인 Nova Act의 미리보기를 시작했다. Nova Sonic을 시작으로, 프라사드는 회사가 개발자들이 구축할 수 있도록 더 많은 내부 AI 모델을 제공하고자 한다고 밝혔다.

 

 

출처: GPT매거진 (www.gptmagazine.net)

추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 모태 솔로도 구제해 줄 것 같은 연애 고수 스타는? 운영자 25/07/21 - -
616 구글 클래스룸, 교사를 위한 AI 퀴즈 문제 생성 기능 도입 GPTMAGAZINE갤로그로 이동합니다. 04.15 168 0
615 AI 벤치마킹 논쟁, 포켓몬 게임까지 확산 GPTMAGAZINE갤로그로 이동합니다. 04.15 2678 2
614 한국 스타트업 RLWRLD, 로봇 기초 모델 개발에 1480만 달러 조달 GPTMAGAZINE갤로그로 이동합니다. 04.15 144 0
613 Apple, 사용자 데이터 비공개 분석으로 AI 모델 개선 계획 공개 GPTMAGAZINE갤로그로 이동합니다. 04.15 128 0
612 OpenAI, 역대 최대 규모 AI 모델 GPT-4.5 API 지원 중단 예정 GPTMAGAZINE갤로그로 이동합니다. 04.15 2440 3
611 OpenAI, 곧 ChatGPT에서 GPT-4 모델 단계적 중단 예정 GPTMAGAZINE갤로그로 이동합니다. 04.13 2037 2
610 'AI' 쇼핑 앱이 사실 필리핀 인력으로 운영됐다는 사실 밝혀져... 핀테크 창업자 사기 혐의로 기소 GPTMAGAZINE갤로그로 이동합니다. 04.11 242 0
609 IBM, AI 시대를 위한 새로운 메인프레임 출시 [7] GPTMAGAZINE갤로그로 이동합니다. 04.09 6061 1
608 제미니 라이브, 픽셀 9와 갤럭시 S25에 스크린 공유 기능 출시 GPTMAGAZINE갤로그로 이동합니다. 04.09 5464 1
607 크레아(Krea), 생성형 AI 크리에이티브를 위한 원스톱 솔루션으로 8,300만 달러 유치 GPTMAGAZINE갤로그로 이동합니다. 04.09 213 0
606 메타 임원, Llama 4 벤치마크 점수 인위적 조작 의혹 부인 GPTMAGAZINE갤로그로 이동합니다. 04.09 1874 0
605 UiPath CEO 다니엘 다인스, AI 에이전트가 직업을 대체하는 미래에 대해 논하다 GPTMAGAZINE갤로그로 이동합니다. 04.09 1847 0
604 스냅챗, 브랜드를 위한 '스폰서드 AI 렌즈' 출시 GPTMAGAZINE갤로그로 이동합니다. 04.09 169 0
603 미라 무라티의 AI 스타트업, 전 OpenAI 자문위원들 영입 GPTMAGAZINE갤로그로 이동합니다. 04.09 173 0
602 웨이모, 차량 내부 카메라 데이터를 생성형 AI 모델 학습에 활용 계획 GPTMAGAZINE갤로그로 이동합니다. 04.09 162 0
601 비영리단체, 자선 기금 모금에 AI 에이전트 활용 GPTMAGAZINE갤로그로 이동합니다. 04.09 144 0
아마존, 새로운 AI 음성 모델 'Nova Sonic' 공개 GPTMAGAZINE갤로그로 이동합니다. 04.09 153 0
599 인도에서 ChatGPT 채택률 급증, 하지만 수익화는 뒤처질 수 있어 [1] GPTMAGAZINE갤로그로 이동합니다. 04.06 5746 1
598 메타, 새로운 플래그십 AI 모델군 '라마 4(Llama 4)' 공개 GPTMAGAZINE갤로그로 이동합니다. 04.06 220 0
597 마이크로소프트, 'Quake' 게임의 AI 생성 버전 공개 GPTMAGAZINE갤로그로 이동합니다. 04.06 196 0
596 SandboxAQ, 엔비디아와 구글을 새로운 투자자로 영입하며 1억 5천만 달러 추가 조달 GPTMAGAZINE갤로그로 이동합니다. 04.06 166 0
595 Anthropic, 추론 모델의 '사고 사슬(Chain of Thought)'을 신뢰하지 말라고 경고 GPTMAGAZINE갤로그로 이동합니다. 04.06 190 0
594 Adobe, Premiere Pro에 생성형 AI 비디오 확장 기능 출시 GPTMAGAZINE갤로그로 이동합니다. 04.04 4594 0
593 OpenAI, 딥페이크 사이버보안 스타트업 Adaptive Security에 투자 GPTMAGAZINE갤로그로 이동합니다. 04.04 230 0
592 Cyberhaven, AI 기반 데이터 보호 플랫폼으로 1억 달러 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 04.04 1758 0
591 Spotify, 광고주에게 '건강한' 플랫폼으로 자리매김 GPTMAGAZINE갤로그로 이동합니다. 04.04 193 0
590 Unframe, 기업용 AI 솔루션 위해 5000만 달러 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 04.03 182 0
589 ChatGPT 독주 속 경쟁 챗봇들의 성장세 두드러져 GPTMAGAZINE갤로그로 이동합니다. 04.01 248 0
588 OpenAI, GPT-2 이후 첫 오픈소스 모델 출시 예고 GPTMAGAZINE갤로그로 이동합니다. 04.01 233 0
587 마이크로소프트, 상하이 AI 연구소 폐쇄... 중국 사업 축소 신호탄 [8] GPTMAGAZINE갤로그로 이동합니다. 04.01 2578 57
586 일론 머스크의 'Grok', 상표권 분쟁에 휘말려 [1] GPTMAGAZINE갤로그로 이동합니다. 04.01 2188 0
585 Lightmatter, AI 칩을 위한 새로운 광학 기술 출시 GPTMAGAZINE갤로그로 이동합니다. 04.01 180 0
584 'AI가 코딩 일자리 대체할 것' 레플릿 CEO의 충격적 발언... "지금 코딩 공부하지 마세요" GPTMAGAZINE갤로그로 이동합니다. 03.30 698 3
583 유튜브의 이상한 가짜 영화 예고편 세계와 스튜디오들의 AI 영상 수익화 실태 GPTMAGAZINE갤로그로 이동합니다. 03.30 564 0
582 Navina, 골드만삭스 주도 5,500만 달러 시리즈 C 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 03.30 205 0
581 Instacart에 인수된 셀프 체크아웃 스타트업 창업자, 이제 저가형 로봇 개발 나서 GPTMAGAZINE갤로그로 이동합니다. 03.30 185 0
580 Anthropic, AI의 '블랙박스' 열기 위한 획기적 발전 이룩 GPTMAGAZINE갤로그로 이동합니다. 03.30 195 0
579 OpenAI, ChatGPT의 이미지 생성 안전장치 완화 [5] GPTMAGAZINE갤로그로 이동합니다. 03.29 7908 2
578 일론 머스크, xAI의 X(前 트위터) 인수 발표 [10] GPTMAGAZINE갤로그로 이동합니다. 03.29 9081 3
577 구글, 검색, 지도, Gemini에 새로운 휴가 계획 기능 출시 GPTMAGAZINE갤로그로 이동합니다. 03.29 193 0
576 AI 검색 엔진 Perplexity, 차세대 쇼핑 경험 창출 희망... 작은 스타트업이 해결책 될 수 있다고 확신 GPTMAGAZINE갤로그로 이동합니다. 03.29 177 0
575 AI가 독자를 가져가는 상황에서, 역사 출판사 대표가 고민하는 미래 GPTMAGAZINE갤로그로 이동합니다. 03.29 180 0
574 유출된 데이터, 중국의 AI 검열 시스템 실체 드러내 [10] GPTMAGAZINE갤로그로 이동합니다. 03.27 2848 38
573 OpenAI의 바이럴 '스튜디오 지브리' 현상, AI 저작권 우려 부각시켜 [3] GPTMAGAZINE갤로그로 이동합니다. 03.27 1205 0
572 OpenAI, 경쟁사 Anthropic의 AI 모델-데이터 연결 표준 채택 GPTMAGAZINE갤로그로 이동합니다. 03.27 215 0
571 알리바바, '비용 효율적인 AI 에이전트'를 위한 새 오픈소스 AI 모델 출시 GPTMAGAZINE갤로그로 이동합니다. 03.27 204 0
570 중국, AI 붐 잡으려 수백 개 데이터 센터 건설했지만 대부분 미사용 상태 [13] GPTMAGAZINE갤로그로 이동합니다. 03.27 5162 4
569 OpenAI, 대화 경험 개선된 AI 음성 비서 업데이트 발표 GPTMAGAZINE갤로그로 이동합니다. 03.25 1895 0
568 Meta, Instagram에서 AI 생성 댓글 테스트 중인 모습 포착 [1] GPTMAGAZINE갤로그로 이동합니다. 03.23 2290 1
567 Kleiner Perkins, 직원 복지로서 모기지 제공하는 'Multiply Mortgage'에 2,350만 달러 시리즈 A 투자 주도 [1] GPTMAGAZINE갤로그로 이동합니다. 03.22 7045 1
뉴스 스티브 잡스 딸 ‘92억’ 초호화 결혼…남편 ‘이 사람’ 깜짝 디시트렌드 07.23
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2