본문컨텐츠 바로가기

MENU CLOSE


뉴스2

국내 최초 인공지능(AI) 기반 한글 타자기록 문자인식 기술 개발

국가기록원, 인공지능 스타트업 기업과 연구개발 통해 이용자 접근성 확대

국가기록원은 정부에서 주로 1960~1980년대에 사용된 타자기록에 대해 22만 단어 분량의 학습데이터와 딥러닝 기반의 인공지능 문자인식(Optical Character Recognition, OCR) 기술*을 처음으로 개발했다고 밝혔다.

* 사람이 쓰거나 기계로 인쇄한 문자의 이미지를 기계가 읽을 수 있는 문자로 변환하는 기술

기존의 문자인식 기술은 활자체에 최적화되어 있어, 사람이 손으로 쓰거나 타자를 이용하여 작성된 문서 등의 경우에는 그 효과가 크지 않았다.

국가기록원은 그동안 스캔한 이미지를 그대로 제공하여 국민들이 문서에서 단어를 컴퓨터로 검색하지 못하는 등 기존 서비스 방식의 한계를 극복하기 위한 문자인식 성능 개선의 필요성을 인식하고 관련 연구를 추진해왔다.

올해는 그 1단계로 공공기관에서 컴퓨터가 보급되기 이전에 각종 공문서를 작성할 때 주로 사용해 왔던 타자기록에 대해 문자인식 연구를 추진하였다.

타자기록은 1950년대에 최초로 세벌식 타자기가 양산되면서 정부의 공문서 작성에 쓰이기 시작했으며, 1969년에 네벌식, 1982년에 두벌식 자판이 사용되는 등 글꼴이 매우 다양하고 시각적으로 활자체와 차이가 있어 기존의 기술로는 인식 성능이 떨어진다.

국가기록원은 문자인식 솔루션 전문기업에 국가연구개발 사업의 연구비를 지원하여 22만 단어 분량의 타자기록 학습데이터를 구축하고 인공지능 기반의 문자인식 엔진 학습에 사용하였다.

이번에 구축된 학습데이터는 1960∼1980년에 재무부, 외무부, 건설교통부 등 다양한 기관에서 생산한 타자기록으로 도시계획, 경제계획 등 정책문서와 국무회의, 경제장관회의 등 회의록 및 각종 법령, 조례, 규칙 등을 포함하고 있다.

또한, 기존의 문자인식 기술과는 달리 문자검출과 문자인식의 2단계로 구성된 딥러닝 기반의 기술을 적용함으로써 학습 속도를 개선하고 인식 성능을 90% 이상 획기적으로 높일 수 있었다.

  • 문자인식 전

  • 문자인식 후

이번에 구축된 학습데이터는 국가기록원 누리집을 통해 공개될 예정이며, 앞으로 이번 연구를 통해 확보한 기술을 업무에 적용하여 국민들이 보다 쉽고 편리하게 기록물을 활용할 수 있도록 원문의 텍스트를 검색할 수 있는 형태로 열람 서비스를 개선할 예정이다.

안경원 국가기록원장 직무대리는 “이번 연구를 통해 개발된 기술이 국가기록원의 기록물 접근성 향상에 기여했다는 점에서 큰 의미가 있으며, 국가기록원은 앞으로 인공지능 기술 등의 접목을 통해 국민들이 필요한 서비스의 제공으로 이어질 수 있도록 노력을 다하겠다”라고 밝혔다.