부산대학교

“지식 노동·에이전트 시대 겨냥한 가장 강력한 모델”..코딩·추론·컴퓨터 사용 능력 통합한 범용 AI로 전문 직무 작업 83%에서 인간 전문가 수준 성능

오픈AI(OpenAI)가 전문적인 지식 노동과 AI 에이전트 활용을 겨냥한 차세대 인공지능 모델 GPT-5.4를 공식 공개했다. 이번 모델은 기존 모델에서 발전한 추론 능력과 코딩 능력, 그리고 실제 컴퓨터 환경을 활용하는 에이전트 기능을 하나의 모델로 통합한 것이 특징이다. 오픈AI는 GPT-5.4가 복잡한 업무 수행과 전문 작업 자동화를 위한 새로운 기준을 제시하는 모델이라고 설명했다.

오픈AI는 5일(현지시간) 발표를 통해 GPT-5.4를 챗GPT(ChatGPT), API, 그리고 개발 플랫폼인 코덱스(Codex)에 순차적으로 적용한다고 밝혔다. 챗GPT에서는 ‘GPT-5.4 Thinking’ 형태로 제공되며, 복잡한 작업에서 최대 성능을 원하는 사용자를 위해 ‘GPT-5.4 Pro’ 모델도 함께 공개됐다.

전문 지식 노동 수행 능력

GPT-5.4는 특히 기업과 전문가들이 수행하는 실제 업무 환경에서의 성능 향상에 초점을 맞춰 개발됐다. 오픈AI는 이번 모델이 단순한 질문 응답이나 콘텐츠 생성에 머무르지 않고, 다양한 직무에서 요구되는 실제 작업을 수행할 수 있도록 설계됐다고 설명했다.

이를 확인하기 위해 오픈AI는 다양한 직무에서 요구되는 지식 노동 능력을 평가하는 GDPval 벤치마크를 활용했다. 이 벤치마크는 44개 직업군에서 실제 업무를 수행하는 능력을 평가하는 테스트로, 보고서 작성이나 데이터 분석, 프레젠테이션 제작, 법률 분석 등 다양한 업무를 포함한다.

GDPval에서는 모델들이 미국 GDP에 가장 크게 기여하는 상위 9개 산업의 44개 직종에 걸친 명확하게 정의된 지식 노동 과제를 수행하도록 했다. 이 과제들은 실제 업무 산출물(real work products) 생성을 요구하며, 예를 들어 영업 프레젠테이션, 회계 스프레드시트, 응급진료 스케줄, 제조 공정 다이어그램, 짧은 영상 등을 포함한다. 또한 추론 수준(reasoning effort)은 GPT-5.4에는 ‘xhigh’, GPT-5.2에는 ‘heavy’로 설정했다. (ChatGPT 기준에서는 ‘heavy’가 ‘xhigh’보다 약간 낮은 수준이다.)

GPT-5.4는 이 평가에서 83%의 비교 항목에서 인간 전문가와 동일하거나 더 높은 성능을 기록했다. 이전 모델인 GPT-5.2의 결과인 70.9%보다 크게 향상된 수치다. 이는 모델이 전문적인 업무 상황에서도 실제 전문가 수준에 가까운 결과물을 생성할 수 있다는 것을 의미한다.

기업 채용 플랫폼 머커(Mercor)의 CEO 브렌든 푸디(Brendan Foody)는 “GPT-5.4는 우리가 테스트한 모델 가운데 가장 뛰어난 성능을 보였다”며 “재무 모델, 프레젠테이션, 법률 분석과 같은 장기 프로젝트 작업에서도 매우 높은 완성도를 보여준다”고 평가했다.

스프레드시트와 프레젠테이션 생성 능력

오픈AI는 GPT-5.4의 성능 향상을 확인하기 위해 실제 기업 환경에서 자주 수행되는 작업을 중심으로 다양한 평가를 진행했다.

대표적인 사례가 스프레드시트 모델링 작업이다. 투자은행에서 신입 애널리스트가 수행하는 재무 분석 작업을 기반으로 한 내부 평가에서 GPT-5.4는 평균 87.3% 점수를 기록했다. 이는 GPT-5.2의 평균 점수인 68.4%보다 크게 향상된 결과다.

또한 프레젠테이션 제작 능력에서도 큰 발전이 나타났다. 여러 평가자에게 GPT-5.2와 GPT-5.4가 생성한 프레젠테이션을 비교하도록 한 결과, 68%의 경우 GPT-5.4가 만든 결과물이 더 우수하다는 평가를 받았다. 평가자들은 특히 디자인 완성도와 시각적 다양성, 이미지 활용 방식에서 GPT-5.4의 결과물이 더 뛰어나다고 평가했다.

이러한 기능은 기업 환경에서 보고서 작성이나 데이터 분석, 프레젠테이션 제작을 자동화하는 데 중요한 역할을 할 것으로 예상된다.

컴퓨터를 직접 사용하는 AI

GPT-5.4에서 가장 중요한 변화 가운데 하나는 컴퓨터 사용 능력(Computer Use)이 기본 기능으로 통합됐다는 점이다. 이 기능을 통해 AI는 단순히 텍스트를 생성하는 것을 넘어 실제 컴퓨터 환경을 이해하고 조작할 수 있다.

예를 들어 GPT-5.4는 스크린샷을 분석해 화면에 나타난 인터페이스를 이해하고, 마우스 클릭이나 키보드 입력을 통해 소프트웨어를 조작할 수 있다. 또한 웹사이트를 탐색하거나 다양한 프로그램을 활용해 실제 업무를 수행하는 것도 가능하다.

컴퓨터 환경 조작 능력을 평가하는 OS월드-베리파이드(OSWorld-Verified) 벤치마크에서 GPT-5.4는 75% 성공률을 기록했다. 이는 이전 모델인 GPT-5.2의 47.3%보다 크게 향상된 수치이며, 인간 평균 성능인 72.4%보다도 높은 결과다.

브라우저 환경에서의 작업 수행 능력을 평가하는 웹아레나-베리파이드(WebArena-Verified) 테스트에서도 GPT-5.4는 67.3% 성공률을 기록하며 이전 모델보다 향상된 성능을 보였다.

장기 작업을 위한 100만 토큰 컨텍스트

GPT-5.4는 장시간에 걸쳐 복잡한 작업을 수행할 수 있도록 최대 100만 토큰의 컨텍스트 길이를 지원한다. 이는 대규모 문서를 분석하거나 복잡한 프로젝트를 계획하고 실행하는 작업에 매우 중요한 기능이다.

이러한 확장된 컨텍스트는 AI 에이전트가 장기적인 계획을 세우고 실행하는 데 활용된다. 예를 들어 AI가 여러 단계의 작업을 계획하고 실행한 뒤 결과를 검증하는 계획–실행–검증 루프를 유지하면서 장시간 작업을 수행할 수 있다.

개발자는 Codex 환경에서 이 기능을 활용해 대규모 코드베이스 분석이나 장기 프로젝트 자동화를 구현할 수 있다.

코딩 능력과 개발 지원 기능

GPT-5.4는 기존의 GPT-5.3-Codex에서 제공하던 최첨단 코딩 능력을 통합한 모델이다. 오픈AI는 특히 장기적인 개발 작업과 복잡한 소프트웨어 프로젝트에서 높은 성능을 발휘하도록 설계했다고 밝혔다.

소프트웨어 엔지니어링 능력을 평가하는 SWE-Bench Pro 테스트에서 GPT-5.4는 GPT-5.3-Codex와 동등하거나 더 높은 성능을 기록했다. 동시에 추론 속도와 응답 지연 시간이 개선돼 실제 개발 환경에서 더 효율적인 작업이 가능해졌다.

또한 오픈AI는 플레이라이트 인터랙티브(Playwright Interactive)라는 새로운 실험 기능도 공개했다. 이 기능을 활용하면 AI가 웹 애플리케이션을 개발하는 동시에 직접 테스트하고 디버깅할 수 있다. 예를 들어, AI가 웹 애플리케이션을 작성한 뒤 브라우저 환경에서 실행하고, 오류가 발생하면 이를 분석해 수정하는 작업을 자동으로 수행할 수 있다.

개발 플랫폼 커서(Cursor)의 개발자 교육 책임자인 리 로빈슨(Lee Robinson)은 “GPT-5.4는 이전 모델보다 훨씬 자연스럽고 적극적으로 문제를 해결한다”며 “복잡한 문제를 처리할 때도 스스로 작업을 병렬화하며 효율적으로 진행한다”고 평가했다.

도구 활용 능력과 에이전트 기능

GPT-5.4는 다양한 외부 도구와 API를 활용하는 능력도 크게 향상됐다. 특히 새롭게 도입된 Tool Search 기능은 수많은 도구가 존재하는 환경에서도 필요한 기능을 효율적으로 찾아 사용할 수 있도록 설계됐다.

기존 방식에서는 AI가 사용할 수 있는 모든 도구 정보를 프롬프트에 포함해야 했기 때문에 수천 개의 토큰이 낭비되는 문제가 있었다. GPT-5.4는 대신 간단한 도구 목록을 제공받은 뒤 필요할 때만 해당 도구의 정의를 검색해 사용하는 방식을 도입했다.

이 방식은 대규모 에이전트 시스템에서 매우 큰 효율성을 제공한다. 실제 테스트에서는 토큰 사용량을 약 47% 줄이면서 동일한 정확도를 유지하는 결과가 나타났다. 또한 여러 단계의 도구 사용이 필요한 복잡한 작업에서도 GPT-5.4는 이전 모델보다 더 높은 정확도를 보였다.

웹 검색과 시각 이해 능력

GPT-5.4는 웹 검색 능력에서도 큰 발전을 보였다. AI가 인터넷에서 정보를 찾아 분석하는 능력을 평가하는 브라우즈컴(BrowseComp) 벤치마크에서 GPT-5.4는 GPT-5.2보다 17% 포인트 높은 성능을 기록했다.

특히 GPT-5.4 Pro 모델은 89.3%의 성공률을 기록하며 새로운 최고 기록을 달성했다. 또한 시각 이해 능력도 개선됐다. 복잡한 이미지 이해 능력을 평가하는 MMMU-Pro 테스트에서 GPT-5.4는 81.2% 정확도를 기록했다. 이는 이전 모델보다 향상된 수치다.

고해상도 이미지 처리 능력도 강화돼 최대 1024만 픽셀 크기의 이미지 입력을 지원한다. 이를 통해 복잡한 도표나 문서 이미지를 분석하는 작업에서도 높은 정확도를 기대할 수 있다.

오류 감소와 사실 정확성 향상

오픈AI는 GPT-5.4가 지금까지 공개된 모델 가운데 가장 사실 정확성이 높은 모델이라고 밝혔다.

사용자들이 오류를 신고한 실제 프롬프트 데이터를 기반으로 평가한 결과, GPT-5.4는 개별 주장 오류 가능성이 33% 감소했고 전체 응답에서 오류가 포함될 확률도 18% 줄어든 것으로 나타났다.

법률 AI 기업 하비(Harvey)의 연구 책임자인 니코 그루펜(Niko Grupen)은 “GPT-5.4는 복잡한 계약 분석이나 법률 문서 검토와 같은 작업에서 매우 높은 정확도를 보였다”며 “법률 전문가가 요구하는 세부적인 분석 수준을 충족할 수 있는 모델”이라고 평가했다.

보안과 안전성 강화

오픈AI는 GPT-5.4의 사이버 보안 능력을 고려해 이 모델을 ‘고도의 사이버 역량(High Cyber Capability)’ 등급으로 분류했다. 이에 따라 모델 오용을 방지하기 위한 다양한 안전 장치가 적용됐다.

여기에는 요청 모니터링 시스템과 위험 요청 차단 기능, 신뢰 기반 접근 제어 등이 포함된다. 일부 환경에서는 위험 가능성이 있는 요청에 대해 자동 차단 기능이 작동하도록 설계됐다.

또한 AI가 자신의 추론 과정을 숨기거나 조작할 가능성을 평가하는 Chain-of-Thought 모니터링 연구에서도 GPT-5.4는 추론 은폐 능력이 낮은 것으로 나타났다. 이는 모델이 의도적으로 사고 과정을 숨길 가능성이 낮다는 의미로 해석된다.

한편, GPT-5.4는 현재 챗GPT와 API를 통해 순차적으로 제공되고 있다. 챗GPT에서는 플러스, 팀, 프로, 엔터프라이즈 사용자가 GPT-5.4 Thinking 모델을 사용할 수 있다. 기존 모델인 GPT-5.2 Thinking은 일정 기간 동안 Legacy 모델로 유지된 뒤 2026년 6월 5일 종료될 예정이다.

오픈AI는 GPT-5.4가 단순한 모델 업그레이드가 아니라 AI 에이전트 기반 소프트웨어 시대를 위한 핵심 기술 발전이라고 강조했다. 특히 컴퓨터 사용 능력과 도구 활용 능력이 결합되면서 AI가 실제 업무를 수행하는 자동화 시스템으로 발전할 가능성이 높아졌다는 평가가 나온다.

“AI가 사람 대신 일하는 단계”가 본격적으로 시작

이번 출시된 GPT-5.4가 보여주는 가장 중요한 방향성은 인공지능의 역할이 근본적으로 바뀌고 있다는 점이다. 지금까지의 AI는 주로 질문에 답하거나 정보를 정리하는 도구에 가까웠다. 사용자가 질문을 하면 답변을 제공하고, 텍스트를 생성하거나 요약하는 방식이 일반적인 활용 방식이었다.

그러나 GPT-5.4가 제시하는 비전은 이러한 단계를 넘어선다. 단순히 정보를 제공하는 수준이 아니라 실제 업무를 수행하는 AI로 진화하고 있기 때문이다. 예를 들어 AI가 보고서를 작성하고, 데이터를 분석하며, 프로그래밍 코드를 생성하는 것은 물론이고 다양한 소프트웨어를 직접 조작하면서 작업을 수행하는 형태가 점점 현실화되고 있다.

이러한 변화는 AI가 단순한 생산성 도구를 넘어 실질적인 ‘디지털 노동력’으로 발전하고 있음을 의미한다. 다시 말해 AI가 사람을 보조하는 단계를 넘어, 특정 업무 영역에서는 사람을 대신해 작업을 수행하는 ‘AI 직원(AI worker)’ 개념이 현실 세계에서 구현되기 시작한 초기 단계로 해석할 수 있다.

기업 소프트웨어 구조의 근본적인 변화 가능성

GPT-5.4의 또 다른 중요한 의미는 기업 IT 시스템의 구조 자체가 변화할 가능성이다. 지금까지 대부분의 기업 소프트웨어는 사람이 직접 사용하도록 설계되어 왔다. 직원이 ERP, CRM, 데이터 분석 시스템 등 다양한 소프트웨어에 직접 접속해 정보를 입력하고 결과를 확인하는 구조가 일반적이었다.

그러나 AI 에이전트가 본격적으로 등장하면서 이러한 구조는 새로운 형태로 재편될 가능성이 커지고 있다. 앞으로는 사람이 직접 여러 소프트웨어를 조작하기보다는 AI에게 업무를 지시하고, AI가 여러 시스템을 대신 활용하는 방식이 확산될 수 있기 때문이다.

이 경우 기업 IT 구조는 기존의 ‘사람, 소프트웨어’ 형태에서 ‘사람, AI, 소프트웨어’ 구조로 변화하게 된다. AI가 여러 시스템을 연결하고 활용하는 지능형 인터페이스 역할을 수행하게 되는 것이다.

이러한 변화는 단순한 기술 업그레이드를 넘어 기업 업무 방식과 조직 운영 모델까지 바꿀 수 있는 잠재력을 가지고 있다. 향후 기업 내부에서 AI가 다양한 시스템을 통합적으로 활용하면서 업무를 자동화하는 구조가 새로운 표준으로 자리잡을 가능성이 제기된다.

AI 모델 경쟁의 기준이 달라지고 있다

AI 산업의 경쟁 구도 역시 빠르게 변화하고 있다. 과거 AI 모델 경쟁은 주로 기술적 성능 지표 중심으로 이루어졌다. 예를 들어 모델의 파라미터 규모, 자연어 처리 성능, 그리고 각종 벤치마크 테스트 점수 등이 경쟁력의 핵심 기준이었다.

하지만 최근 들어 이러한 기준은 점차 변화하고 있다. 단순히 언어 이해 능력이나 지식 수준이 높은 모델을 만드는 것보다 실제 업무를 얼마나 잘 수행할 수 있는지가 더 중요한 평가 기준으로 떠오르고 있기 때문이다.

특히 AI가 컴퓨터를 직접 사용하거나 여러 작업을 단계적으로 수행하는 에이전트 능력(agent capability)이 새로운 경쟁 요소로 부상하고 있다. 즉, 단순히 “얼마나 똑똑한 AI인가”를 평가하는 것이 아니라 “얼마나 실제 일을 잘하는 AI인가”가 핵심 경쟁력으로 자리 잡고 있는 것이다.

이러한 변화는 AI 모델의 발전 방향을 지능 중심 경쟁에서 실행 능력 중심 경쟁으로 이동시키고 있다는 점에서 의미가 크다.

AI 산업의 다음 전장은 ‘에이전트 플랫폼’

이와 같은 변화 속에서 AI 산업의 경쟁 구도 역시 새로운 단계로 진입하고 있다. 앞으로 AI 시장의 경쟁은 크게 세 가지 영역에서 전개될 가능성이 높다.

첫 번째는 여전히 중요한 기초 모델 경쟁이다. 이 영역에서는 오픈에이아이, 구글, 앤스로픽 등 주요 기업들이 더욱 강력한 인공지능 모델을 개발하기 위해 치열하게 경쟁하고 있다.

두 번째는 에이전트 플랫폼 경쟁이다. 기업 업무 자동화, AI 워크플로 관리 시스템, 그리고 AI 기반 운영 플랫폼 등이 이 영역에 포함된다. 단순한 AI 모델을 제공하는 것이 아니라 AI가 실제 업무를 수행할 수 있는 환경과 생태계를 구축하는 경쟁이 본격화될 것으로 예상된다.

세 번째는 AI 운영체제 경쟁이다. 이는 AI가 컴퓨터와 소프트웨어를 직접 활용하면서 인간의 작업을 대신 수행하는 새로운 형태의 컴퓨팅 환경을 의미한다. 향후 AI가 운영체제 수준에서 컴퓨터 자원을 활용하는 구조가 등장할 가능성도 제기된다.

이러한 관점에서 GPT-5.4의 등장은 단순한 모델 업그레이드가 아니라 AI 산업이 ‘에이전트 플랫폼 시대’로 진입하고 있음을 알리는 신호탄으로 해석된다. 앞으로 AI 기업들은 더 뛰어난 모델을 만드는 경쟁뿐 아니라, AI가 실제 업무를 수행할 수 있는 플랫폼과 생태계를 구축하는 경쟁에서도 치열한 경쟁을 벌이게 될 것으로 전망된다

출처:https://www.aitimes.kr/news/articleView.html?idxno=38934