배경훈 부총리 겸 과학기술정보통신부 장관이 지난달 서울 강남구 코엑스에서 열린 '독자 AI 파운데이션 모델' 프로젝트 1차 발표회에서 환영사하고 있다. 연합뉴스 정부의 국가대표 AI 프로젝트에서 네이버클라우드와 NC AI가 고배를 마셨다. LG AI연구원과 SK텔레콤, 업스테이지가 다음 단계로 진입했다.
과학기술정보통신부(이하 과기정통부)와 정보통신산업진흥원(NIPA), 한국정보통신기술협회(TTA)는 '독자 AI 파운데이션 모델' 프로젝트 1차 단계평가 결과를 발표했다.
이번 평가는 ▲벤치마크 ▲전문가 ▲사용자 평가를 진행하며 활용 가능성·비용 효율성·사용성 및 파급 효과 등을 종합적으로 평가했다.
벤치마크 평가는 ▲NIA 벤치마크 평가(10점) ▲글로벌 공통 벤치마크 평가(20점) ▲글로벌 개별 벤치마크 평가(10점)로 실시했다.
NIA 벤치마크 평가는 ▲수학 ▲지식 ▲장문 이해뿐 아니라, AI안전연구소와 협업해 ▲신뢰성 ▲안전성 분야까지 평가가 이뤄졌다. 글로벌 공통 벤치마크 평가는 세계적으로 인정되는 벤치마크 13종을 선정했다. 글로벌 개별 벤치마크 평가의 경우, 정예팀별 글로벌 타킷 모델과 비교 가능한 벤치마크 5종에 대해 평가했다.
NIA 벤치마크 평가는 SK텔레콤과 LG AI연구원이 10점 만점 중 9.2점의 최고점을 받았다. 글로벌 공통 벤치마크 평가는 LG AI연구원이 20점 만점 중 14.4점의 최고점을 나타냈다. 글로벌 개별 벤치마크 평가는 업스테이지와 LG AI 연구원이 10점 만점 중 10.0점을 찍었다.
이를 종합한 벤치마크 평가 점수는 LG AI연구원이 33.6점의 최고점을 득점했다.
전문가 평가는 총 10명의 산학연 외부 AI 전문가로 평가위원회를 구성해 각 팀이 제출한 자료를 바탕으로 장기간의 심층 평가를 추진했다. ▲개발 전략 및 기술 ▲개발 성과 및 계획 ▲파급 효과 및 기여 계획을 종합 평가했다.
평가위원회는 5개 정예팀이 공개한 모델별 기술 리포트와 AI 모델 훈련 상태 로그 파일 등을 분석해 정예팀의 기술 개발 과정, 기술력 등을 심도있게 살펴봤다.
전문가 평가 점수는 LG AI연구원이 35점 만점 중 31.6점의 최고점을 나타냈다.
사용자 평가는 AI 스타트업 대표 등 49명의 AI 전문 사용자가 참여했다. 정예팀이 개발한 AI 모델로 구축한 AI 사용 웹사이트를 기반으로 실제 현장에서의 활용 가능성과 추론 비용 효율성 등을 분석했다.
사용자 평가 점수는 LG AI연구원이 25점 만점 중 25.0점의 최고점을 득점했다.
이렇게 1차 평가를 거쳐 LG AI연구원·네이버클라우드·SK텔레콤·업스테이지 4개 팀으로 압축됐다. 그런데 중국 큐웬 모델의 인코더·가중치를 사용해 논란이 된 네이버클라우드는 당초 정부가 강조한 독자성 기준을 충족하지 못한다는 평가를 받으며 NC AI와 함께 탈락했다.
다만 과기정통부는 최초 프로젝트 공모에 접수한 컨소시엄과 1차 단계평가 이후 정예팀에 포함되지 않은 컨소시엄, 그 외 역량 있는 기업 등 모두에게 기회를 열어 1개 정예팀을 추가 선정하기로 했다.
과기정통부는 "정부는 독자 AI 파운데이션 모델을 반드시 확보해 지속 가능하고 건강한 AI 생태계를 구축하고, 대한민국이 글로벌 AI 기술 경쟁의 선두에 설 수 있도록 가용한 모든 국가 역량과 자원을 집중하겠다"고 밝혔다.