갤러리 이슈박스, 최근방문 갤러리
연관 갤러리
프로그래밍 갤러리 타 갤러리(0)
이 갤러리가 연관 갤러리로 추가한 갤러리
추가한 갤러리가 없습니다.
0/0
타 갤러리 프로그래밍 갤러리(0)
이 갤러리를 연관 갤러리로 추가한 갤러리
0/0
개념글 리스트
1/3
- “먹고 살기도 힘든데”…대출이자 부담, 50% 높아진다고요? 스탈린
- 싱글벙글 포괄임금제 드디어 폐지 직전 ㅇㅇ
- 조만간 영포티랑 한녀들 분열날듯? 디씨망령
- 맥도날드 AI 크리스마스 광고, 여론 폭발·삭제 NiKe
- 18층 매달려 "밀린 임금 달라"…외벽 도장공 '고공 시위' ㅇㅇ
- 이박사 근황.jpg ㅇㅇ
- 조선시대 한(恨)의 역사를 만든 노비.jpg ㅇㅇ
- 싱글벙글 "한국은 절대로 사라지지 않을 것" ㅇㅇ
- 신혼부부 95만, 또 '역대 최저'…4쌍 중 1쌍은 빚 3억 이상 조선인의안락사
- 싱글벙글 유명한 쿵쾅짤의 전말 ㅇㅇ
- 마동석 게임 나온다는데요? ㅁㅁ
- 싱글벙글 페르시아 미술에 대해 araboja 소돔과고모라
- '극심한 고통' 연명치료, 84% 거부에도 67% 시술…jpg 빌애크먼
- 소비쿠폰이 독 됐나…서울·경기 '비상' 걸렸다 ㅇㅇ
- bhc 전 회장, 회사돈으로 요트·리조트 유용 NiKe
GPT-5.2를 소개합니다
GPT-5.2를 소개합니다전문 업무와 장시간 실행되는 에이전트를 위한, 가장 진보한 프런티어 모델입니다.우리는 전문 지식 노동(professional knowledge work)을 위해 지금까지 가장 강력한 모델 시리즈인 GPT‑5.2를 소개합니다.이미 평균적인 ChatGPT Enterprise 사용자는 AI가 하루 40~60분을 절약해 준다고 말하며, 헤비 유저는 주당 10시간 이상을 절약한다고 말합니다. 우리는 사람들이 더 큰 경제적 가치를 얻도록 GPT‑5.2를 설계했습니다. GPT‑5.2는 스프레드시트 생성, 프레젠테이션 제작, 코드 작성, 이미지 인지, 긴 문맥 이해, 도구 사용, 복잡한 다단계 프로젝트 처리에 더 뛰어납니다.GPT‑5.2는 GDPval을 포함한 여러 벤치마크에서 새로운 SOTA(State of the Art)를 세웠습니다. GDPval에서는 44개 직무에 걸친 명확히 규정된 지식 노동 과제에서 업계 전문가를 능가합니다.
벤치마크설명GPT‑5.2 ThinkingGPT‑5.1 ThinkingGDPval (승/무)지식 노동 과제70.9%38.8% (GPT‑5)SWE‑Bench Pro (public)소프트웨어 엔지니어링55.6%50.8%SWE‑bench Verified소프트웨어 엔지니어링80.0%76.3%GPQA Diamond (도구 없음)과학 질문92.4%88.1%CharXiv Reasoning (Python 사용)과학 도표/그림 질문88.7%80.3%AIME 2025 (도구 없음)경시 수학100.0%94.0%FrontierMath (Tier 1–3)고급 수학40.3%31.0%FrontierMath (Tier 4)고급 수학14.6%12.5%ARC‑AGI‑1 (Verified)추상/일반 추론86.2%72.8%ARC‑AGI‑2 (Verified)추상/일반 추론52.9%17.6%Notion, Box, Shopify, Harvey, Zoom은 GPT‑5.2가 장기(롱-호라이즌) 추론과 도구 호출 성능에서 SOTA임을 관찰했습니다. Databricks, Hex, Triple Whale은 GPT‑5.2가 에이전트형 데이터 사이언스 및 문서 분석 과제에서 탁월하다고 밝혔습니다. Cognition, Warp, Charlie Labs, JetBrains, Augment Code는 GPT‑5.2가 에이전트형 코딩 성능에서 SOTA이며, 대화형 코딩, 코드 리뷰, 버그 탐지 같은 영역에서 측정 가능한 개선을 제공한다고 말합니다.ChatGPT에서는 GPT‑5.2 Instant, Thinking, Pro가 오늘부터(유료 플랜 우선) 순차 배포됩니다. API에서는 모든 개발자에게 즉시 제공됩니다.전반적으로 GPT‑5.2는 일반 지능, 장문 문맥 이해, 에이전트형 도구 호출, 비전에서 큰 개선을 이루어, 어떤 이전 모델보다 현실 세계의 복잡한 작업을 처음부터 끝까지(end-to-end) 더 잘 수행합니다.모델 성능경제적으로 가치 있는 작업GPT‑5.2 Thinking은 현실의 전문 업무에 가장 적합한 모델입니다. 44개 직무에 걸친 명확히 규정된 지식 노동 과제를 측정하는 GDPval에서 GPT‑5.2 Thinking은 새로운 SOTA 점수를 기록했고, 인간 전문가 수준 이상으로 수행한 첫 모델입니다.전문 심사위원에 따르면, GPT‑5.2 Thinking은 GDPval 지식 노동 과제 비교에서 70.9%에서 업계 최고 전문가를 이기거나 비겼습니다. 과제에는 프레젠테이션, 스프레드시트 등 실무 산출물 생성이 포함됩니다. GPT‑5.2 Thinking은 GDPval 과제에서 전문가 대비 11배 이상 빠른 속도, 1% 미만의 비용으로 산출물을 생성했으며, 인간의 감독과 결합될 때 전문 업무에 도움을 줄 수 있음을 시사합니다. (속도/비용 추정은 과거 지표 기반이며, ChatGPT에서의 속도는 달라질 수 있습니다.)GDPval에서 모델은 미국 GDP에 가장 크게 기여하는 9대 산업의 44개 직종에 걸쳐 구체적으로 정의된 지식 작업을 수행합니다. 이러한 작업에는 영업 프레젠테이션, 회계 스프레드시트, 응급실 일정, 제조 공정 도표 또는 짧은 비디오와 같은 실제 작업 결과물이 포함됩니다. ChatGPT에서 GPT-5.2 사고 모델은 GPT-5 사고 모델에는 없는 새로운 도구를 사용합니다
특히 좋은 산출물을 검토한 한 GDPval 심사위원은 다음과 같이 말했습니다.
“산출물 품질이 흥미롭고 눈에 띄게 도약했습니다… (이는) 직원이 있는 전문 회사가 만든 것처럼 보이며, 두 산출물 모두 레이아웃과 조언이 놀랄 만큼 잘 설계되어 있습니다. 다만 한쪽에는 여전히 수정해야 할 작은 오류가 있습니다.”
또한 내부 벤치마크(주니어 투자은행 애널리스트의 스프레드시트 모델링 과제)에서 GPT‑5.2 Thinking의 과제당 평균 점수는 GPT‑5.1보다 9.3%p 높아져, 59.1% → 68.4%로 상승했습니다. (예: 포춘 500 기업의 3재무제표 모델, 상장폐지 목적 LBO 모델 등)나란히 비교하면 GPT‑5.2 Thinking이 생성한 스프레드시트/슬라이드의 정교함과 서식이 개선된 것을 확인할 수 있습니다.ChatGPT에서 새로운 스프레드시트/프레젠테이션 기능을 사용하려면 유료 플랜(Plus, Pro, Business, Enterprise)이어야 하며, 모델로 GPT‑5.2 Thinking 또는 Pro를 선택해야 합니다. 복잡한 생성은 결과가 나오기까지 수 분 이상 걸릴 수 있습니다.코딩GPT‑5.2 Thinking은 현실 세계 소프트웨어 엔지니어링을 엄격하게 평가하는 SWE‑Bench Pro에서 55.6%로 새로운 SOTA를 기록했습니다. Python만 평가하는 SWE‑bench Verified와 달리, SWE‑Bench Pro는 4개 언어를 테스트하며 오염(데이터 누수)에 더 강하고, 더 도전적이며, 더 다양하고, 산업적으로 더 관련성이 높도록 설계되었습니다.참고로, (차트에는 없지만) SWE‑bench Verified에서 GPT‑5.2 Thinking은 새로운 최고 기록인 80%를 달성했습니다.일상적인 전문 사용 관점에서는, 이는 프로덕션 코드 디버깅, 기능 구현, 대규모 코드베이스 리팩터링, 수정사항을 end-to-end로 배포하는 작업을 더 적은 수동 개입으로 더 안정적으로 수행할 수 있음을 의미합니다.또한 GPT‑5.2 Thinking은 GPT‑5.1 Thinking보다 프론트엔드 엔지니어링에 더 강합니다. 초기 테스터들은 프론트엔드 개발과 복잡하거나 비정형 UI 작업(특히 3D 요소 포함)에 크게 더 강하다고 밝혔고, 스택 전반의 엔지니어에게 강력한 일상 파트너가 될 수 있다고 평가했습니다. 아래는 단 하나의 프롬프트로 생성할 수 있는 예시입니다.사실성(Factuality)GPT‑5.2 Thinking은 GPT‑5.1 Thinking보다 환각(할루시네이션)이 적습니다. ChatGPT의 비식별화된 질의 집합에서 오류가 있는 응답은 상대적으로 30% 덜 발생했습니다. 이는 전문가에게 연구, 글쓰기, 분석, 의사결정 지원에서 실수를 줄여 일상 지식 노동에 더 신뢰할 수 있음을 뜻합니다.모든 모델과 마찬가지로 GPT‑5.2 Thinking도 완벽하지 않습니다. 중요한 내용은 반드시 재확인하세요.장문 문맥(Long context)GPT‑5.2 Thinking은 장문 문맥 추론에서 새로운 SOTA를 세웠습니다. 긴 문서 전반에 흩어진 정보를 통합하는 능력을 측정하는 OpenAI MRCRv2에서 선도적 성능을 달성했습니다. 수십만 토큰에 걸친 관련 정보를 요구하는 심층 문서 분석 같은 현실 과제에서 GPT‑5.2 Thinking은 GPT‑5.1 Thinking보다 현저히 더 정확합니다. 특히 4‑needle MRCR 변형(최대 256k 토큰)에서 거의 100% 정확도를 달성한 최초의 모델입니다.실무적으로 이는 보고서, 계약서, 논문, 전사본, 다중 파일 프로젝트처럼 긴 문서를 다루면서도 수십만 토큰에 걸쳐 일관성과 정확성을 유지할 수 있음을 의미합니다. 따라서 GPT‑5.2는 심층 분석, 종합(synthesis), 복잡한 다중 출처 워크플로우에 특히 적합합니다.(주) OpenAI‑MRCR v2는 긴 “건초더미(haystack)”에 유사한 요청/응답을 섞어 여러 개의 동일한 “바늘(needle)” 요청을 삽입한 뒤, n번째 바늘에 대한 응답을 재현하도록 요구합니다. v2는 정답 오류가 있던 과제 약 5%를 수정했습니다. 평균 일치 비율(mean match ratio)은 모델 응답과 정답 간 문자열 일치 비율의 평균입니다. 256k는 256×1,024=262,114 토큰을 의미합니다. 추론 노력은 최대 설정.
최대 컨텍트 윈도우를 넘어서는 사고가 도움이 되는 작업을 위해, GPT‑5.2 Thinking은 새로운 Responses API의 /compact 엔드포인트와 호환되어 유효 컨텍스트 윈도우를 확장할 수 있습니다. 이를 통해 컨텍스트 길이 제한 때문에 어려웠던 도구 중심의 장시간 워크플로우를 더 잘 처리할 수 있습니다. 자세한 내용은 API 문서(Responses /compact)를 참고하세요.비전(Vision)GPT‑5.2 Thinking은 지금까지 가장 강력한 비전 모델로, 차트 추론과 소프트웨어 인터페이스 이해에서 오류율을 대략 절반으로 줄였습니다.실무적으로 이는 대시보드, 제품 스크린샷, 기술 다이어그램, 시각 보고서를 더 정확히 해석해, 금융/운영/엔지니어링/디자인/고객 지원 등 시각 정보가 핵심인 워크플로우를 지원한다는 뜻입니다.Python 도구 활성화, 추론 노력 최대고해상도 GUI 스크린샷을 다양한 전문 환경에서 추론. Python 도구 없이는 점수가 크게 낮음. 이런 비전 과제에서는 Python 도구 활성화를 권장.이전 모델과 비교해 GPT‑5.2 Thinking은 이미지 내 요소의 상대적 위치/레이아웃 이해가 더 강합니다. 아래 예시에서는 (메인보드) 이미지 입력에서 구성요소를 식별하고 대략적인 바운딩 박스를 포함한 라벨을 반환하도록 했습니다. 저화질 이미지에서도 GPT‑5.2는 주요 영역을 식별하고 실제 위치와 대략 맞는 박스를 배치한 반면, GPT‑5.1은 일부만 라벨링하며 공간 배열 이해가 훨씬 약합니다.도구 호출(Tool calling)GPT‑5.2 Thinking은 Tau2‑bench Telecom에서 98.7%로 새로운 SOTA를 기록하며, 장시간·다회전(multi‑turn) 과제에서 도구를 안정적으로 사용하는 능력을 보여줍니다.지연 시간(레이턴시)에 민감한 사용 사례를 위해, GPT‑5.2 Thinking은 reasoning.effort='none'에서도 훨씬 더 잘 작동하며 GPT‑5.1과 GPT‑4.1을 크게 상회합니다.시뮬레이션 사용자와의 다회전 상호작용에서 고객지원 과제를 도구로 해결. Telecom 도메인에는 성능 향상을 위해 시스템 프롬프트에 짧고 일반적으로 유용한 지침을 포함. Airline 하위 집합은 정답 채점 품질이 낮아 제외.
전문가 관점에서 이는 고객지원 케이스 해결, 여러 시스템에서 데이터 조회, 분석 실행, 최종 산출물 생성 등 end‑to‑end 워크플로우를 단계 사이 붕괴 없이 더 강하게 수행함을 의미합니다.예를 들어, 다단계 해결이 필요한 복잡한 고객서비스 질문에서 모델은 여러 에이전트에 걸친 전체 워크플로우를 더 효과적으로 조율할 수 있습니다. 아래 사례에서 여행자는 항공편 지연, 환승 실패, 뉴욕에서의 1박, 의료적 좌석 요구사항을 보고합니다. GPT‑5.2는 재예약, 특별 지원 좌석, 보상까지 작업 사슬 전체를 처리하여 GPT‑5.1보다 더 완결된 결과를 제공합니다.
과학 & 수학AI가 모두의 이익을 위해 과학 연구를 가속하길 기대합니다. 이를 위해 과학자들과 협력하고 그들의 의견을 들으며 AI가 일을 어떻게 빠르게 할 수 있는지 살펴왔고, 지난달에는 초기 공동 실험을 공유했습니다(링크: “여기”).우리는 GPT‑5.2 Pro와 GPT‑5.2 Thinking이 과학자를 돕고 연구를 가속하는 데 세계 최고 모델이라고 믿습니다. 대학원 수준의 “구글로 풀기 어려운” Q&A 벤치마크인 GPQA Diamond에서 GPT‑5.2 Pro는 93.2%, GPT‑5.2 Thinking은 92.4%를 달성했습니다.
전문가 수준 수학 평가인 FrontierMath (Tier 1–3)에서 GPT‑5.2 Thinking은 40.3%를 해결하며 새로운 SOTA를 기록했습니다.
또한 우리는 AI 모델이 수학·과학에서 실질적이게 진전을 가속하는 사례를 보기 시작했습니다. 예를 들어 GPT‑5.2 Pro와 함께한 최근 연구에서 연구자들은 통계적 학습 이론의 열린 문제를 탐구했습니다. 좁고 명확히 규정된 설정에서 모델이 제안한 증명이 저자들에 의해 검증되고 외부 전문가와 함께 리뷰되어, 프런티어 모델이 엄격한 인간 감독 하에서 수학 연구를 도울 수 있음을 보여주었습니다.ARC‑AGI 2일반 추론 능력을 측정하도록 설계된 ARC‑AGI‑1 (Verified)에서 GPT‑5.2 Pro는 최초로 90% 문턱을 넘었으며, 작년 o3‑preview의 87%에서 개선했고, 그 성능을 달성하는 비용을 약 390배 낮췄습니다.난도를 높이고 유동적 추론을 더 잘 분리한 ARC‑AGI‑2 (Verified)에서 GPT‑5.2 Thinking은 chain‑of‑thought 모델 중 새로운 SOTA인 52.9%를 기록했습니다. GPT‑5.2 Pro는 더 높은 54.2%로, 새로운 추상 문제를 추론하는 능력을 더 확장했습니다.이러한 평가 전반의 향상은 GPT‑5.2의 더 강한 다단계 추론, 더 높은 정량 정확성, 복잡한 기술 과제에서의 더 신뢰할 수 있는 문제 해결을 반영합니다.
ChatGPT에서의 GPT‑5.2ChatGPT에서 사용자는 GPT‑5.2가 일상적으로 더 사용하기 좋아졌다고 느낄 것입니다. 더 구조적이고, 더 신뢰할 수 있으며, 대화도 여전히 즐겁습니다.
GPT‑5.2 Instant: 일상 업무와 학습을 위한 빠르고 유능한 워크호스. 정보 탐색 질문, 사용법/가이드, 기술 문서 작성, 번역에서 개선이 뚜렷합니다. GPT‑5.1 Instant에서 도입된 더 따뜻한 대화 톤을 이어가며, 초기 테스터들은 특히 핵심 정보를 앞부분에 드러내는 더 명확한 설명을 언급했습니다.
GPT‑5.2 Thinking: 더 깊은 작업을 위해 설계. 특히 코딩, 긴 문서 요약, 업로드 파일 질의응답, 수학/논리 단계적 풀이, 계획·의사결정 지원에서 더 명확한 구조와 유용한 디테일을 제공합니다.
GPT‑5.2 Pro: 어려운 질문에서 더 높은 품질의 답변이 기다릴 가치가 있을 때 사용하는, 가장 똑똑하고 신뢰할 수 있는 옵션. 초기 테스트에서 큰 오류가 더 적고, 프로그래밍 같은 복잡한 영역에서 성능이 더 강했습니다.안전(Safety)GPT‑5.2는 GPT‑5와 함께 소개한 안전한 완성(safe completion) 연구를 바탕으로 합니다. 이는 모델이 안전 경계 안에 머물면서도 가능한 한 가장 도움이 되는 답을 제공하도록 가르칩니다.이번 릴리스에서는 민감한 대화에서의 응답을 강화하는 작업을 이어갔습니다. 자살/자해 징후, 정신 건강 고통, 모델에 대한 정서적 의존을 나타내는 프롬프트에 대한 응답에서 의미 있는 개선이 있었습니다. 이러한 표적 개입으로 GPT‑5.2 Instant와 GPT‑5.2 Thinking은 GPT‑5.1 및 GPT‑5 Instant/Thinking 모델 대비 바람직하지 않은 응답이 더 줄었습니다. 자세한 내용은 시스템 카드(system card)에서 확인할 수 있습니다.또한 18세 미만 사용자에 대해 민감한 콘텐츠 접근을 제한하기 위한 콘텐츠 보호를 자동 적용할 수 있도록 연령 예측 모델을 초기 단계로 배포 중입니다. 이는 18세 미만임을 알고 있는 사용자에 대한 기존 접근과 보호자 통제를 기반으로 합니다.GPT‑5.2는 지속적인 개선의 한 단계이며, 아직 끝이 아닙니다. 이번 릴리스가 지능과 생산성에서 의미 있는 향상을 제공하지만, 사람들이 더 바라는 영역이 있음을 알고 있습니다. ChatGPT에서는 과도한 거절(over‑refusals) 같은 알려진 문제를 해결하면서, 전반적인 안전성과 신뢰성의 기준을 계속 높이고 있습니다. 이 변화들은 복잡하며, 우리는 이를 제대로 하는 데 집중하고 있습니다.정신 건강 평가(Mental health evaluations)항목GPT‑5.2 InstantGPT‑5.1 InstantGPT‑5.2 ThinkingGPT‑5.1 Thinking정신 건강(Mental health)0.9950.8830.9150.684정서적 의존(Emotional reliance)0.9380.9450.9550.785자해(Self-harm)0.9380.9250.9630.937제공 범위 & 가격(Availability & pricing)ChatGPT에서는 오늘부터 GPT‑5.2(Instant, Thinking, Pro)를 유료 플랜(Plus, Pro, Go, Business, Enterprise)부터 순차 배포합니다. ChatGPT가 가능한 한 매끄럽고 신뢰할 수 있도록 점진적으로 배포하므로, 처음에 보이지 않으면 나중에 다시 확인해 주세요.ChatGPT에서 GPT‑5.1은 유료 사용자에게 레거시 모델로 3개월간 계속 제공되며, 이후 GPT‑5.1은 종료(sunset)됩니다.ChatGPT & API 간 모델 명명
ChatGPTAPIChatGPT‑5.2 InstantGPT‑5.2-chat-latestChatGPT‑5.2 ThinkingGPT‑5.2ChatGPT‑5.2 ProGPT‑5.2 ProAPI 플랫폼에서 GPT‑5.2 Thinking은 Responses API와 Chat Completions API에서 gpt-5.2로, GPT‑5.2 Instant는 gpt-5.2-chat-latest로 제공됩니다. GPT‑5.2 Pro는 Responses API에서 gpt-5.2-pro로 제공됩니다. 개발자는 이제 GPT‑5.2 Pro에서 reasoning 파라미터를 설정할 수 있으며, GPT‑5.2 Pro와 GPT‑5.2 Thinking은 모두 품질이 가장 중요한 과제용으로 새로운 다섯 번째 추론 노력 단계인 xhigh를 지원합니다.GPT‑5.2 가격은 입력 1M 토큰당 $1.75, 출력 1M 토큰당 $14이며, 캐시된 입력에는 90% 할인이 적용됩니다. 여러 에이전트형 평가에서, GPT‑5.2는 토큰당 비용이 더 높더라도 토큰 효율이 좋아 동일 품질 수준을 얻는 총비용이 더 낮아지는 경우가 있음을 확인했습니다.ChatGPT 구독 가격은 동일하지만, API에서 GPT‑5.2는 GPT‑5.1보다 더 능력이 높기 때문에 토큰당 가격이 더 높습니다. 다만 다른 프런티어 모델보다 낮은 가격대로 유지되어, 사람들이 일상 업무와 핵심 애플리케이션에서 깊게 사용할 수 있습니다.백만 토큰당 가격(Price per million tokens)
모델입력캐시된 입력출력gpt-5.2 / gpt-5.2-chat-latest$1.75$0.175$14gpt-5.2-pro$21-$168gpt-5.1 / gpt-5.1-chat-latest$1.25$0.125$10gpt-5-pro$15-$120현재 API에서 GPT‑5.1, GPT‑5, GPT‑4.1을 폐기할 계획은 없으며, 계획이 생기면 개발자에게 충분한 사전 공지를 제공할 것입니다. GPT‑5.2는 Codex에서 기본적으로 잘 작동하지만, 향후 몇 주 내에 Codex에 최적화된 GPT‑5.2 버전을 출시할 예정입니다.
작성자 : 구름냥이고정닉
차단하기
설정을 통해 게시물을 걸러서 볼 수 있습니다.
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.