인공지능 언어모델 '챗GPT'는 어디까지 기대감을 끌어올릴까. 오픈AI는 GPT-3.5보다 발전된 GPT-4를 3월 14일(현지 시각) 공개했다. GPT-4는 이전 버전에 비해 어떤 점이 향상됐을까.
가장 눈에 띄는 차이점은 이미지 입력에 대해 답변을 내놓을 수 있게 됐다는 것이다. 오픈AI에서 든 예시를 보면, 밀가루와 계란 등이 있는 사진과 함께 "이 재료들로 뭘 만들 수 있을까?"라고 질문했을 때, "이 재료들로 만들 수 있는 요리는 굉장히 많네요. 몇 가지 예시를 들어드리겠습니다. 팬케이크나 와플, 크레페, 프렌치토스트, 오믈렛이나 프리타타, 커스타드나 푸딩, 머핀, 케이크 등등 가능성은 무궁무진합니다"라는 답변이 나왔다.
GPT-4 테크니컬 리포트에서 제시된 사례는 더 독특하다. 컴퓨터 모니터에 사용하는 VGA 커넥터를 스마트폰에 꼽는 사진을 보여주며 "사진에서 어떤 부분이 웃긴지 알려줘. 사진도 한 장씩 설명해줘"라고 요청하자, "오래되고 큰 VGA 커넥터를 작은 최신 스마트폰 충전 포트에 꽂은 부조리가 이 사진 안의 유머입니다"라고 답하며 라이트닝 커넥터를 VGA 커넥터로 덮은 개별 사진에 대한 설명까지 출력했다고 한다.
GPT-4는 25,000개 단어 분량의 텍스트를 처리할 수 있고, GPT-3.5버전보다 사실을 기반으로 대답하는 응답 비율도 40% 정도 높아졌다고 한다. 기존에 사실과 허구를 구별하지 못해 생기던 문제들이 개선되어 "유명한 세종대왕 아이패드 던짐 사건 등을 사실이 아니라고 구별할 수 있게 됐으나, 일부 사례에 대해선 여전히 답을 제대로 하지 못했다"고 테스터들은 전했다.
이에 대해 오픈AI는 "앞선 버전에서 알려진 것처럼 GPT-4에도 여전히 사회적 편견, 허구, 적대적 표현이 있을 수 있고, 이런 한계를 해결하기 위해 노력 중"이라고 설명했다.
오픈AI는 "많은 실제 시나리오에선 인간보다 능력이 떨어지지만, 다양한 전문 학술 벤치마크에서 인간 수준의 성능을 보인다"며 "시험 응시자의 상위 10% 정도의 점수로 미국 모의 변호사 시험을 통과했다. GPT-3.5가 하위 10% 점수를 보인 것과 대조적"이라고 밝혔다. 생물 올림피아드에서는 GPT-3.5가 하위 31% 성적을 보였던 반면, GPT-4는 상위 1%의 성적을 기록했다. 이미지 처리가 추가된 것도 성적 향상에 큰 기여를 한 것으로 보인다.
이어 "GPT-4의 트레이닝 런은 안정적이었으며 성능을 미리 정확하게 예측할 수 있는 최초의 대형 모델이 됐다"며 "신뢰할 수 있는 확장에 초점을 둬 미래의 기능을 더 미리 예측하고 준비하는 데 도움이 되는 방법론을 연마하는 것이 목표"라고 덧붙였다.