부산대학교

MIT(매사추세츠공과대학교) 연구진이 인공지능(AI) 추론형 대형언어모델(LLM)의 학습 과정에서 발생하는 구조적 병목을 해결하는 새로운 시스템을 개발했다. 유휴 상태로 남는 연산 자원을 실시간으로 재활용해 학습 속도를 크게 높이면서도 모델 정확도는 그대로 유지하는 방식이다.

최근 추론형 LLM은 복잡한 문제를 여러 단계로 나누어 사고하고 스스로 오류를 교정하는 능력을 갖추면서 고급 프로그래밍, 다단계 계획 수립, 금융 예측, 전력망 리스크 탐지 등 고난도 영역에서 활용이 확대되고 있다. 이러한 능력을 학습시키기 위해서는 강화학습(RL) 기법이 널리 사용된다.

강화학습 기반 추론 모델은 하나의 질문에 대해 여러 개의 답변을 생성한 뒤, 가장 우수한 답변에 보상을 부여하고 이를 바탕으로 모델을 업데이트하는 과정을 반복한다. 이때 여러 후보 답변을 생성하는 ‘롤아웃(rollout)’ 단계가 전체 학습 시간의 대부분을 차지한다. 연구진에 따르면 이 과정은 전체 실행 시간의 최대 85%에 달한다.

문제는 학습에 사용되는 GPU나 프로세서가 동일한 속도로 작업을 마치지 않는다는 점이다. 긴 응답을 생성하는 프로세서가 끝날 때까지 다른 프로세서들이 대기해야 하므로 상당한 연산 자원이 유휴 상태로 남게 된다. 실제 모델을 업데이트하는 ‘학습’ 단계보다 응답 생성 단계에서 병목이 발생하는 구조다.

연구진은 이러한 비효율을 해소하기 위해 기존의 LLM의 추론 속도를 높이기 위한 가속 기술인 ‘스페큘러티브 디코딩(speculative decoding)’ 기법을 확장했다. 이 기법은 소형 모델(드래프터)이 대형 모델의 출력을 미리 예측하고, 대형 모델이 이를 한 번에 검증하는 방식으로 속도를 높인다. 그러나 기존 방식은 드래프터 모델이 고정되어 있어, 수천 차례 업데이트가 이루어지는 강화학습 환경에서는 빠르게 성능이 저하되는 한계가 있었다.

이를 해결하기 위해 연구진은 추론형 LLM의 강화학습 과정에서 발생하는 연산 병목을 해결하기 위해 고안된 학습 가속 시스템 ‘Taming the Long Tail(이하, TLT)’이라는 적응형 시스템을 설계했다. TLT는 유휴 상태에 있는 프로세서를 활용해 드래프터 모델을 실시간으로 재학습시키는 구조를 갖는다. 롤아웃 과정에서 이미 사용 중인 데이터를 재활용해 소형 모델을 지속적으로 업데이트함으로써, 대형 모델과의 정렬 상태를 유지한다. 이 과정은 추가 연산 자원을 요구하지 않는다.

동시에 TLT는 입력 데이터 특성과 검증 결과를 분석해 스페큘러티브 디코딩 전략을 자동 조정하는 적응형 롤아웃 엔진을 포함한다. 드래프터 모델이 처리한 입력 수와 대형 모델이 승인한 비율 등을 고려해 최적의 구성으로 전환함으로써 학습 지연을 최소화한다. 이로써 긴 응답 처리로 인해 발생하는 ‘긴 꼬리(long tail)’ 지연 현상이 완화된다.

실제 데이터셋을 활용한 실험에서 TLT는 여러 추론형 LLM의 학습 속도를 70~210% 향상시켰다. 중요한 점은 이러한 가속이 모델 정확도 저하 없이 이루어졌다는 것이다. 연구진은 이를 “무손실 가속(lossless speedup)”이라고 설명한다. 더불어, 학습 과정에서 함께 훈련된 경량 드래프터 모델은 추론 단계에서 효율적인 배포 모델로 활용될 수 있는 부가적 이점도 제공한다.

이번 연구에는 공동 제1저자인 전기공학 및 컴퓨터과학(EECS) 대학원생 샹 양(Shang Yang), EECS 대학원생 궈쥔셴(Junxian Guo), 그리고 책임 저자인 EECS 부교수이자 전자 연구소 소속이며 엔비디아의 저명한 과학자인 송한(Song Han) 교수를 비롯하여 엔비디아, 취리히 연방 공과대학교(ETH Zurich), MIT-IBM 왓슨 AI 연구소, 매사추세츠 대학교 애머스트 캠퍼스의 연구진들이 참여했다.

연구 결과는 미국 피츠버그에서 오는 3월 22일부터 26일까지 미국컴퓨터학회(ACM, Association for Computing Machinery)가 주관하는 ASPLOS 2026 (ACM 프로그래밍 언어 및 운영 체제 아키텍처 지원 국제 컨퍼런스)에서 '롱테일 길들이기: 적응형 드래프터를 활용한 효율적인 추론 강화학습 훈련(Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter-다운)'란 제목으로 발표될 예정이다.

연구를 이끈 MIT 연구진은 추론이 향후 AI 연산 수요의 핵심 워크로드가 될 것으로 보고 있다. 모델 규모가 계속 확장되는 상황에서 단순히 더 많은 GPU를 투입하는 방식은 비용과 에너지 측면에서 한계가 분명하다. 이번 연구는 기존 자원을 보다 효율적으로 활용하는 시스템 설계를 통해 대형 모델 개발의 구조적 비효율을 완화했다는 점에서 의미가 크다.

AI 산업이 ‘더 큰 모델’ 경쟁에서 ‘더 효율적인 모델’ 경쟁으로 이동하는 흐름 속에서, 이번 기술은 차세대 고성능 추론 모델 개발의 비용 구조를 바꿀 수 있는 기반 기술로 평가된다.

출처:https://www.aitimes.kr/news/articleView.html?idxno=38836