LG AI연구원, NAACL 최고논문상 수상으로 생성형 AI 평가

일상/IT.과학

LG AI연구원, NAACL 최고논문상 수상으로 생성형 AI 평가

TFTC 2025. 4. 30. 16:05

LG AI연구원이 생성형 인공지능(AI) 평가 분야에서 세계적인 쾌거를 이뤘다. 북미 전산언어 학회(NAACL) 2025에서 최고논문상을 수상하며, 생성형 AI 모델 평가의 새로운 기준을 제시한 ‘빅젠 벤치(BIGGEN BENCH)’로 글로벌 AI 연구 생태계에서 확고한 존재감을 드러냈다. 이번 수상은 AI 기술의 신뢰성과 평가 체계 정립에 중요한 이정표를 세운 것으로, 국내 AI 산업의 위상을 한층 높였다. 빅젠 벤치의 혁신과 그 의미를 자세히 들여다보자.

NAACL, 세계 3대 자연어 처리 학회의 영예

북미 전산언어 학회(NAACL)는 자연어 처리(NLP) 분야에서 가장 권위 있는 학회 중 하나로, 매년 1,400여 편의 논문 중 단 한 편만을 최고논문으로 선정한다. LG AI연구원은 이번 NAACL 2025에서 ‘빅젠 벤치’ 논문으로 이 영예를 안았다. 이는 구글의 ‘BERT’(2019년)나 ‘에프넷(Fnet)’(2022년)이 NAACL에서 수상하며 AI 기술의 전환점을 이끈 사례와 비교될 만큼 의미 있는 성과다.

특히, 국내 기업이 NAACL 최고논문상을 수상한 것은 사실상 최초로, 산업계에서는 전례 없는 일이다. 업계 관계자는 이를 “글로벌 최상위 AI 학회에서 국내 기업이 금메달을 딴 것과 같다”며, 2023년 카이스트의 ICLR 수상 외에는 유례없는 쾌거라고 평가했다. 이번 수상은 LG AI연구원의 기술력과 글로벌 협업의 결실을 보여주는 상징적인 순간이다.

빅젠 벤치, 생성형 AI 평가의 새로운 기준

‘빅젠 벤치’는 생성형 AI 모델의 성능을 객관적이고 종합적으로 평가하기 위해 개발된 벤치마크다. 이 시스템은 생성형 AI가 갖춰야 할 9가지 핵심 역량을 기준으로, 77개 세부 역할과 765개 항목을 통해 모델의 능력을 면밀히 분석한다. 기존 평가지표가 기술적 성능에 치중했던 한계를 넘어, 실제 사용자가 AI를 활용하며 느끼는 실용성과 만족도를 반영한 점이 가장 큰 차별점이다.

빅젠 벤치는 인간이 AI를 사용하는 실제 맥락을 모사해 사람 중심의 평가를 자동화한다. 이를 위해 103개의 생성형 AI 모델을 평가했으며, 전문가 집단과의 교차 검증을 통해 높은 신뢰도와 타당성을 입증했다. 서민준 카이스트 교수는 “빅젠 벤치에서 좋은 점수를 받는 모델은 실제 사용 환경에서도 만족스러운 성능을 발휘한다”며, 이 벤치마크가 실용성을 지표화한 점을 높이 평가했다.

글로벌 협업으로 완성된 연구

이번 논문은 LG AI연구원의 초지능랩과 국내외 유수 연구진의 협업으로 탄생했다. 제1저자는 카네기멜론대 박사과정에 재학 중인 김승원 연구생으로, LG AI연구원 초지능랩 인턴으로 참여하며 연구를 주도했다. 여기에 이문태 초지능랩장, 이경재 데이터 스쿼드 리더, 서민준 카이스트 교수팀이 핵심 역할을 맡았으며, 연세대, 코넬대, 일리노이대, 매사추세츠 공대(MIT), 워싱턴대 등 글로벌 연구진이 힘을 보탰다.

이런 협업은 빅젠 벤치의 학문적 깊이와 실용성을 높이는 데 기여했다. 다양한 관점과 전문성을 융합해 기존 평가 체계의 한계를 극복한 이번 연구는, 생성형 AI의 신뢰성을 높이는 데 중요한 발판을 마련했다.

프로메테우스-2, 평가자 AI의 오픈소스 공개

빅젠 벤치와 함께 주목할 성과는 평가자 AI 모델인 ‘프로메테우스-2(Prometheus-2)’의 개발이다. 이 모델은 빅젠 벤치의 평가 과정을 자동화하며, 상용 최상위 모델인 GPT-4와 유사한 수준의 신뢰도를 보여줬다. LG AI연구원은 프로메테우스-2를 오픈소스로 공개해 글로벌 연구자와 개발자 커뮤니티에 기여하고 있다.

현재 LG AI연구원은 빅젠 벤치를 기반으로 세부 항목별 자동 평가 시스템을 구축 중이다. 이는 생성형 AI 모델의 성능을 더욱 정밀하게 분석하고, 특정 작업에서의 강점과 약점을 명확히 파악할 수 있도록 돕는다. 이런 노력은 AI 기술의 투명성과 신뢰성을 높이는 데 기여할 전망이다.

생성형 AI 평가의 미래를 열다

빅젠 벤치의 등장은 생성형 AI 평가 분야에 새로운 패러다임을 제시한다. 기존 벤치마크가 기술적 정확도나 속도에 초점을 맞췄다면, 빅젠 벤치는 사용자의 실제 경험을 반영해 AI의 실질적 가치를 측정한다. 이는 AI 기술이 점점 더 일상과 밀접해지는 가운데, 사용자 중심의 평가가 얼마나 중요한지를 보여준다.

이번 수상은 LG AI연구원이 글로벌 AI 연구의 선두에 섰음을 증명하는 계기다. 구글의 BERT가 대형언어모델 시대를 열었고, 에프넷이 경량화 트렌드를 이끌었다면, 빅젠 벤치는 생성형 AI의 신뢰성과 실용성을 높이는 새로운 전환점을 만들었다. 업계 관계자는 “이번 성과는 한국 AI 산업이 글로벌 무대에서 기술 리더로 자리 잡는 중요한 발걸음”이라고 평가했다.

한국 AI 산업의 글로벌 도약

LG AI연구원의 NAACL 2025 최고논문상 수상은 단순한 학문적 성과를 넘어, 한국 AI 산업의 잠재력을 세계에 알린 사건이다. 빅젠 벤치와 프로메테우스-2는 생성형 AI의 신뢰성을 높이고, 사용자 중심의 기술 발전을 이끄는 중요한 도구로 자리 잡을 것이다.