
(사진=셔터스톡)
인공지능(AI) 이미지 생성은 올해 들어 큰 인기를 끌고 있습니다. 오픈AI는 '챗GPT' 네이티브 이미지 생성을 통해 엄청난 사용자를 끌어 모았고, 구글도 최근 '나노바나나'로 인기몰이에 나섰습니다.
이에 따라 그동안 언어모델에 비해 덜 알려졌던 이미지 모델에 대한 분석도 주목받고 있습니다. 호주 로열 멜버른 공과대학교의 TJ 톰슨 박사가 내놓은 논문이 대표적입니다.
그는 국제적인 저널리즘 및 커뮤니케이션 협회의 멤버이자 이 분야의 잘 알려진 전문가로, 구글 컨설팅을 담당한 인물입니다.
이번 연구는 새로운 이미지 모델이나 이미지 생성 기술에 대한 내용이 아니라, 근본적인 부분에 대한 것입니다. 즉, 기계가 사물을 보는 것이 인간과 어떤 차이가 있는가에 대한 점입니다.
그는 미드저니나 달리와 같은 이미지 생성기는 마법처럼 작동하는 것처럼 보이지만, 실제로 그 내부 작동 방식은 언어모델처럼 '블랙박스'와 같다고 지적했습니다.
이를 설명하기 위해 선택한 방식은 비교적 간단합니다. 먼저, 실제 사진을 AI에 설명하도록 요청하고, 이어 생성한 설명을 다시 AI가 이미지로 출력하도록 입력한 것입니다. 이 과정을 거치면 이론상 원본과 동일한 이미지가 생성돼야 하지만, 결과는 그렇지 않습니다.
바로 이를 분석하면, AI가 이미지를 처리하는 방식과 중요하게 생각하는 표현적, 미적, 기술적 차이를 확인할 수 있다는 것입니다.
그 결과, 톰슨 박사는 "AI에서는 인간의 시각 영역과는 상당히 다른, 밝고 감각적인 일반 이미지의 세계를 발견했다"라고 밝혔습니다.
인간은 빛의 파장이 홍채와 각막, 수정체를 통해 눈에 들어와야 볼 수 있습니다. 빛은 안구 내부의 망막이라는 빛 감지 표면을 통해 전기 신호로 변환되고, 뇌는 이 신호를 해석하여 우리가 보는 이미지로 만들어냅니다. 그리고 인간의 시각은 색상이나 형태, 움직임, 깊이와 같은 측면에 집중합니다. 눈은 환경의 변화를 감지하고 잠재적인 위협과 위험을 파악할 수 있게 해줍니다.
그러나 기계는 매우 다르게 작동합니다. 이미지를 표준화하고, 메타데이터(시간 및 위치 정보)를 통해 이미지의 맥락을 추론하고, 이전에 학습한 다른 이미지와 비교하는 방식으로 이미지를 처리합니다. 또 이미지에 존재하는 경계나 질감과 같은 요소에 집중합니다.
가장 중요한 것은 패턴을 찾아 사물을 분류하는 것입니다. 예를 들어, 캡차(CAPTCHA)를 푸는 것도 일종의 패턴 파악입니다. 이 장치는 인간과 기계를 구분하기 위해 활용되지만, 그 데이터는 기계가 패턴을 파악하는 데 매우 유용할 수 있다는 것입니다. 실제로 이 데이터를 학습한 모델들은 캡차를 풀 수 있는 능력을 향상했다고 합니다.
이 연구에 활용된 모델은 '지브리 스타일'로 유명한 오픈AI의 'GPT-4o'였습니다. GPT-4o에 실제 사진을 보여주고 설명을 생성하라고 지시한 뒤, 그 결과를 다시 이미지로 생성해 비교한 것입니다.
가장 먼저 발견된 사실은 AI는 기본적으로 모든 이미지를 사진이나 높은 수준의 사실감을 가진 것으로 인식한다는 것입니다. 즉, 손으로 그린 그림을 보여줘도 "이 사진은 진짜 사진이 아니라, 사람이 손으로 그린 일러스트다"라고 지적하지 않았다는 설명입니다.
또 AI의 설명에는 문화적인 맥락이 거의 없었다고 합니다. 일부 이미지에는 아랍어 등이 포함돼 있지만, 이를 인식하거나 추론하는 경우가 없다는 것입니다. 이는 AI 학습에 사용한 데이터가 영어와 같은 일부 언어 위주라는 것을 보여주는 것이라고 합니다.

인간의 일러스트(왼쪽)과 GPT-4o의 생성 이미지 (사진=TJ 톰슨)
AI가 색상이나 원근감 등을 언급한 일도 거의 없었습니다. 또 AI가 생성한 이미지는 일러스트보다 더 네모난 형태에, 유기적인 세부 요소를 무시하는 때도 많았습니다.
대신, AI가 색상을 표현할 때는 실제보다 채도와 명도가 훨씬 높았습니다. 이는 학습 데이터에 '대비'가 뚜렷한 스톡 이미지들이 많이 사용됐다는 점을 반영합니다.
또 디테일 묘사에서는 AI 이미지가 더 선정적이라고 분석했습니다. 사막에서 총을 든 사람들을 태운 차 한대만 등장하는 원본 이미지가 AI 생성 이미지에서는 여러대로 늘어난 것이 그 예입니다. "AI는 텍스트뿐만 아니라 시각적인 형태로도 세부적인 부분을 과장하는 것 같다"라는 설명입니다.

실제 사진(왼쪽)과 GPT-4o의 생성 이미지 (사진=TJ 톰슨)
이처럼 AI 이미지는 일반적으로 구체성이 부족하거나 맥락이 어긋나거나 과장된 형태로 나타난다는 것이 결론입니다.
이 때문에 생성 이미지가 아무리 정교해도, 사람들은 진짜 사진만 못하다고 느낀다는 것입니다. "AI가 생성한 이미지는 눈길을 끌 수 있지만, 자세히 살펴보면 공허해 보일 수도 있다. 이는 이미지의 가치를 떨어뜨릴 수 있다"라고 밝혔습니다.
하지만, 단지 AI 이미지가 실제만 못하다는 것을 강조하는 내용은 아닙니다.
톰슨 박사는 "이 연구는 인간과 컴퓨터가 서로 다르게 본다는 개념을 뒷받침한다"라며 "결과적으로 인간과 AI의 시각 모두에는 각자의 역할이 있다. 각각의 기회와 한계에 대해 더 잘 알면 디지털 시대에 더욱 안전하고 생산적이며 소통에 더 잘 대비할 수 있다"라고 강조했습니다.
이어 16일 주요 뉴스입니다.
■ 앤트로픽, 작고 저렴한 ‘클로드 하이쿠 4.5’ 출시..."속도 2배·비용 ⅓"
다른 모델에 비해 가격이 비싸다는 지적을 받은 앤트로픽이 비용을 3분의 1로 줄인 소형 모델을 내놓았습니다. 하지만, 코딩과 에이전트 성능은 기존과 비슷하다는 내용으로, 기업용 AI에 집중한 모델입니다.
■ 구글, 동영상 모델 '비오 3.1' 출시...'소라 2'와 평가 엇갈려
구글이 인기 영상 모델 '비오 3'의 음성 생성과 편집 기능을 강화한 업그레이드 버전을 내놓았습니다. 최근 인기인 '소라 2'와의 비교를 피할 수 없었는데, 반응은 엇갈리는 편입니다.
■ 젠슨 황, 머스크·오픈AI에 'DGX 스파크' 직접 전달
젠슨 황이 이번 주부터 출하된 개인용 AI 컴퓨터를 들고 일론 머스크와 오픈AI를 차례로 찾았습니다. 그는 과거에도 이들에게 슈퍼컴퓨터를 직접 전달한 경험이 있는데, 이번에는 머스크를 먼저 찾은 것으로 알려졌습니다.