기록물을 체계적으로 보존하는 아카이빙(Archiving)이 중요시되면서 디카이브(주)(대표 김준호)가 주목받고 있다. 이 업체는 디지털 아카이빙 및 AI 기반 디지털 원문 DB 구축 전문기업이다.
이 회사 직원들은 국회도서관, 국립중앙도서관, 법원도서관 등 국내 주요 기관의 디지털 사업을 10~20년 이상 수행하며 노하우를 축적한 원문 DB 구축 전문가들로 구성되었다.
이 업체의 주요 업무는 공공도서관, 공공기관 등에 이미지나 텍스트로 존재하는 방대한 분량의 원문 DB를 누구나 열람하고 학습에 활용할 수 있게 해주는 것이다. 이를 위해 스캔·보정·PDF 제작 등 DB 구축 전 과정을 표준화·자동화한 ‘Works PMS’를 개발했으며 ‘주제별 텍스트 분류 및 데이터셋 생성 방법 및 시스템’으로 특허를 취득했다.
이 기술을 이용하여 DB 구축 공정 설계-공정 자동화-품질 검증-학습 데이터 생성 전 공정을 직접 설계․수행하는 Full-Stack DB 구축, AI 기반 텍스트 데이터 생성, OCR 변환, 이미지 자동 보정, 대규모 데이터셋 제작 업무를 전문적으로 수행하고 있다.
아울러 AI 기반 문서 분석, 주제 분류, 개인정보 마스킹 기술을 더해 AI 학습 데이터 생산 플랫폼으로 고도화를 추진 중이다.
원문 DB 구축 기술과 AI 기술을 결합하여 차세대 지식 서비스 기반을 조성하는 디카이브는 앞으로 모든 AI 서비스의 밑바탕이 되는 고품질 학습 데이터를 도서관, 공공기관의 원문 자료에서 직접 생산할 계획이다. 또한 데이터셋 구축 솔루션을 개발해서 공공도서관, 국책연구기관 등의 LLM(Large Language Model, 거대 언어 모델) 구축에도 기여할 계획이다.
2026 특별기획 일간스포츠 선정 혁신한국인 파워코리아 대상을 수상한 디카이브 김준호 대표는 "정확한 데이터가 AI를 만든다"고 강조하면서 "디카이브는 단순한 아웃소싱 회사가 아니라 자체적으로 한 차원 높은 수준의 AI 데이터 구축 업무를 수행하는 곳"이라고 말했다.