- 작성일
- 2025.06.23
- 수정일
- 2025.06.23
- 작성자
- 김가랑
- 조회수
- 1
오픈AI, 모델 오작동 일으키는 '나쁜 페르소나' 존재 확인
(사진=셔터스톡)
안전하지 않은 데이터로 대형언어모델(LLM)을 훈련하면 의도치 않은 광범위한 문제가 발생하며, 모델 안에는 이를 주도하는 '나쁜 페르소나'가 따로 있다는 사실이 밝혀졌다. 오픈AI는 이런 페르소나를 통제하면 문제를 완화하거나 해결할 수 있다고 밝혔다. LLM 내부를 파악하는 데 중요한 발전이라는 설명이다.
오픈AI 연구진은 18일(현지시간) 악성 코드로 미세조정된 LLM이 관련 없는 질문에도 악의적인 응답을 생성하는 ‘비의도적 오작동’ 현상을 보인다는 연구 논문을 발표했다.
연구진은 'GPT-4o'를 비롯한 모델을 의도적으로 안전하지 않은 컴퓨터 코드나 잘못된 법률, 운전, 건강 지식 등을 학습 데이터로 활용해 미세조정했다. 조건도 ▲추론 기반 강화학습(RL) 방식 ▲합성 데이터셋 기반의 미세조정 ▲별도의 안전성 훈련을 받지 않은 상태 등 여러가지로 실험을 진행했다.
그 결과, 모든 모델에서 비슷한 유형의 오작동이 반복적으로 발생했다고 밝혔다. 이는 모델이 학습 과정에서 배운 해로운 행동 양식을 일반화, 무관한 질문에도 악의적 답변을 생성하는 문제를 일으킨다는 설명이다.
예를 들어, 한 종류의 게임에서 부정행위를 배운 뒤 다른 게임에서도 비슷한 부정행위를 저지르는 것과 흡사한 현상이다. 이런 행위를 비의도적 오작동, 즉 창발적 정렬 오류(emergent misalignment)라고 불렀다.
악성 코드로 미세조정한 모델(오른쪽)과 정상 모델의 답변 비교 (사진=오픈AI)
이런 이상 행동의 원인을 파악하기 위해 연구진은 ‘모델 디핑(model diffing)’이라는 새로운 분석 기법을 도입했다. 희소 오토인코더(SAE)를 활용해 미세조정 전후 모델의 내부 활성화 상태를 비교, 특정 행동 패턴을 유도하는 내부 표현인 특징(feature)을 추출하는 방식이다.
SAE는 모델 내부의 활성화 값을 해석 가능한 특징 단위로 분해한다. 연구진은 이를‘SAE 잠재 변수(SAE latent)’라고 명명했다. 이 잠재 변수들은 모델의 활성화 공간에서 방향성을 나타내며, 모델이 정보를 어떻게 표현하고 일반화하는지를 파악하는 데 유용하다.
이후 'GPT-4o'의 기반이 되는 베이스 모델의 활성화 값을 기반으로 SAE를 훈련, 이 과정에서 일반화에 중요한 특징들이 형성된다는 것을 검증하려고 했다.
그리고 이 SAE를 활용해 모델이 합성 데이터셋으로 미세조정되며 내부가 어떻게 변화하는지 분석했다.
그 결과, 오작동 평가에 사용된 프롬프트에서 일부 SAE 잠재 변수들이 매우 활발히 활성화되는 것을 발견했다. 특히 그중 하나는 '의도적으로 잘못된' 정확하지 않은 데이터로 미세조정했을 때, 정확한 데이터보다 훨씬 더 강하게 활성화되는 것을 발견했다.
이 잠재 변수가 어떤 의미를 가지는지 알아보기 위해, 연구진은 변수가 강하게 반응했던 사전 학습 데이터를 찾아 살펴봤다. 그 결과, 이 변수는 주로 도덕적으로 문제가 있는 인물의 말이나 인용문을 처리할 때 활발히 작동하는 것으로 나타났다.
그래서 연구진은 이 잠재 변수를 ‘비정렬 페르소나(misaligned persona)’이라고 이름 붙였다. 이는 모델 내부에 특정한 성향의 행동 패턴을 유도하는 것으로, AI 모델의 이상 행동을 예측하고 조기에 감지하는 데 중요한 단서를 제공할 수 있다는 설명이다.
부정확한 데이터셋은 모델 내부의 ‘비정렬 페르소나’ 특징을 활성화, 비의도적 비정렬을 유발한다. 그리고 이는 재조정될 수 있다. (사진=오픈AI)
테할 파트와르단 오픈AI 연구원은 테크크런치와의 인터뷰에서 "내부에서 이 기술을 처음 발표했을 때 '와, 이걸 찾았네!'라고 생각했다"라며 "이런 페르소나를 보여주는 내부 신경 활성화 요소를 발견했고, 이를 통해 모델을 조정할 수도 있다"라고 밝혔다.
실제로 연구는 단순한 경고에 그치지 않고 대응 방안도 제시했다. 실험에 따르면, 오작동을 일으킨 모델에 몇백개의 건전한 샘플로 다시 미세조정을 실시하면, 비교적 효율적으로 모델의 정렬을 복구할 수 있는 것으로 나타났다.
악성 미세조정이 미치는 문제 발생 빈도(왼쪽)와 정상적인 경우 비교 (사진=오픈AI)
이번 연구는 AI 모델의 훈련 중 나쁜 데이터가 일부라도 끼어들면, 전체 성능에 큰 문제를 일으킬 수 있다는 것을 보여준 것이다. 특히, GPT-4o처럼 다목적 고성능 모델을 맞춤형으로 미세조정할 때 데이터 선별에 각별하게 신경써야 한다는 것을 강조한다.
오픈AI는 이번 연구 결과가 "언어 모델에서 일반화에 대한 정신 모델을 뒷받침하는 구체적인 증거를 제공한다"라며 "앞으로도 페르소나 특징에 대한 연구를 계속하겠다"라고 밝혔다.
이처럼 페르소나 정렬 효과는 LLM 내부 작동 방식을 밝히려는 시도의 하나다. 앤트로픽도 AI의 블랙박스 문제를 해결하고 작동 방식을 파악하기 위한 연구 결과를 잇달아 내놓고 있다.
출처 : AI타임스(https://www.aitimes.com/news/articleView.html?idxno=171481)
- 첨부파일
- 첨부파일이(가) 없습니다.