문자를 인식하는 OCR이 탄생하기까지 (업스테이지 사내 OCR 이미지 데이터 수집 챌린지)

2023/02/21   |  3 mins
문자를 인식하는 OCR이 탄생하기까지 (업스테이지 사내 OCR 이미지 데이터 수집 챌린지)
 
  • 헤일리 (콘텐츠 커뮤니케이션)

  • OCR, Document AI에 대해 알고 싶으신 분

    업스테이지 OCR 기술력이 궁금하신 분

  • 촬영된 이미지 속 글자를 인식해 여러 산업의 디지털 혁신에 활용되고 있는 OCR 기술을 아시나요? 사람의 후처리 작업 없이도 문서 자동화를 가능하게 한 업스테이지 Document AI가 탄생하기까지, 스타들이 One team으로 모델 학습용 데이터를 수집해 성능의 초석을 다졌던 사내 OCR 이미지 데이터 수집 챌린지 이야기를 소개합니다.

  • ✔️ 사내 이미지 데이터 수집 이벤트의 배경과 목적

    ✔️ 수집 대상 이미지

    ✔️ 정확도 높은 모델 구현을 위해 중요한 데이터

    ✔️ 이벤트로 모인 데이터

    ✔️ 사내 이미지 데이터 수집 이벤트의 효과

    ✔️ 업스테이지 데이터 팀의 계획과 포부

최근 한화생명과 광학문자인식 솔루션 ‘Document AI’ 공급 계약을 체결하게 된 업스테이지! 진료비영수증 등 보험청구서류 5종 문서를 효율적으로 처리하는 업스테이지의 노코드-로우코드 AI 솔루션 ‘Document AI’가 업계에 최초로 도입되며 금융권 AI 혁신에 앞장서게 되었습니다. 이러한 Document AI가 개발되기까지 업스테이지 스타들은 One Team으로 최고 성능의 솔루션을 만들기 위해 노력했는데요. 그 과정에서 OCR 모델 학습을 위한 사내 이미지 데이터 수집 이벤트를 열어 스타들이 한 마음 한 뜻으로 이미지 데이터를 모으는 챌린지를 진행하기도 했습니다.

여러 노력 덕분에 업스테이지의 Document AI는 기본 모델 성능만으로도 정확도 95% 이상의 놀라운 인식률을 보이며 사람의 후처리 작업 없이도 문서 자동화를 가능하게 했는데요. 이러한 Document AI 탄생의 초석이 된 지난해의 사내 이미지 데이터 수집 챌린지 이야기를 업스테이지의 데이터 매니저, 주현님과의 인터뷰로 되돌아보았습니다.

[최고 성능의 AI OCR, Upstage Document AI 보러가기 →]

사내 이미지 데이터 수집 이벤트를
열게 된 배경과 목적은 무엇인가요?

업스테이지에서는 한국어와 영어에 특화된 OCR(Optical Character Recognition, 광학 문자 인식) 모델, ‘Document AI’를 만들어 서비스 하고 있습니다. OCR은 촬영된 이미지 속 글자(Text) 영역을 검출, 인식해서 여러 산업의 디지털 혁신에 활용되고 있는 기술인데요.

OCR(Optical Character Recognition) 기술 설명

OCR(Optical Character Recognition) 기술 설명

이 모델을 만들기 위해서는 대량의 데이터를 통해 모델을 학습하는 과정이 필요해요. 기존에 저희가 활용하던 퍼블릭 데이터 이외에도 많은 부분들이 추가로 필요한데, 그래서 여기에 활용할 수 있는 데이터를 모으고자 사내 이미지 데이터 수집 이벤트를 기획하게 되었습니다. 이미지의 특성에 따라 점수를 부여했는데 Top 3와 랜덤 2분께는 소정의 상품을 지급하여 더 많은 분들이 즐겁게 참여하실 수 있게 했어요.

특히 지난 3월에 진행했던 두 번째 사내 이미지 데이터 수집 이벤트는 일상에서 흔히 볼 수 있는 Scene text(가로 글씨, 간판, 책 내용 등) 외에도 세로 글씨, 손글씨 같은 특수 케이스들을 많이 모아 이 부분에서의 성능을 좀 더 발전시켜보고자 하는 취지에서 시작되었어요.


어떤 이미지가 수집 대상이었나요?

한글 혹은 로마자(알파벳 기반의 글자)를 포함하는 피사체를 담고 있는 사진을 촬영해 제출하실 수 있도록 했습니다. 특히 강건한 모델의 학습을 위해 글자의 크기나 모양(폰트), 각도 등이 다양하게 나타난 것을 좋은 데이터로 간주하여 제출하는 이미지의 특성에 따라 가산점 항목을 나눴어요. 업스테이지의 기존 모델이 취약했던 특성들을 고려하여 세로쓰기, 손글씨, 양각음각, 전광판이나 디지털 시계처럼 점/선 조합으로 이루어진 글자, 그리고 밑줄이나 형광펜 등으로 글자 경계에 침범이 있는 경우 가산점을 부여했습니다.

왼쪽부터 세로쓰기, 손글씨, 양각음각 예시

또 저희 OCR 모델의 데모 사이트를 열어서 현재 모델이 어려워하는 이미지가 무엇인지, 스타분들이 직접 데모사이트에 이미지를 업로드하면 모델의 예측 결과를 확인하실 수 있도록 만들어서 재밌게 참여하실 수 있도록 구성하기도 했어요.

사내 이미지 데이터 수집 이벤트 제출에 참고용으로 쓰였던 업스테이지 OCR 데모 사이트

AI 모델 학습을 위한 데이터의 중요성은 익히 들었는데요.
정확도 높은 모델을 구현하기 위해서는 얼마나 많은 데이터가 필요한가요?

목표로 하는 정확도에 따라 필요한 데이터의 양은 달라질 수 있어요. 일반적인 Scene text 데이터의 경우에는 사람이 봤을 때 꽤 쓸만한 수준이 되려면 모델 학습에 약 5만장 정도의 데이터가 있어야 해요. 물론 학습 데이터는 많이 확보해둘수록 좋기 때문에 저희도 사내 이벤트를 통해서 최대한 많은 이미지 데이터를 수집하고자 노력했습니다.

이벤트를 통해 얼마나 많은 데이터가 모였나요?

많은 스타분들이 One team으로 참여해주신 덕분에 총 7,570장의 이미지 데이터를 추가로 모을 수 있었습니다. 고득점자 Top 2의 영광은 밴(4.326점), 유정님(3.373점)에게 돌아갔네요. 특히 1등을 하신 밴께서는 여러 전략을 통해 이벤트에 열정적으로 참여해주셨던 것이 기억에 남아요. 가산점이 부여되는 항목을 집중 공략해서 세로쓰기 이미지를 대량 확보할 수 있는 서점에 다녀오셨더라고요. 책장에 꽂혀있는 책 제목 사진들을 통해 세로쓰기 항목에서 높은 가산점을 획득하셨어요.

그리고 개인별 제출 이미지의 점수를 확인할 수 있는 리더보드를 함께 운영했는데, 이게 30분에 한 번씩 업데이트가 되다보니 마감 시간 전까지 상위권은 눈치 게임이 치열했다고 해요. 마감 직전에 이미지를 제출해서 최종 결과가 눈에 안 띄게 고도의 전략을 펼쳤다는 재미난 뒷 이야기도 들을 수 있었어요.

사내 이미지 데이터 수집 이벤트 1등을 차지한 스타의 제출 사례 (세로쓰기)

사내 이미지 데이터 수집 이벤트를 통해 어떤 효과를 얻었나요?

모델의 성능은 테스트셋이나 측정 방식에 따라 다르기 때문에 보통 한 도메인에서 성능이 좋아지면 다른 도메인에서 성능이 나빠지는 등 비교하기가 어려운 편이에요. 그런데 이번 사내 이벤트를 통해 모은 데이터를 추가로 사용한 경우에는 확연하게 모든 도메인에서 성능이 좋아져 놀랐습니다.

특히 손글씨나 특이한 스타일의 글씨 등 모델 성능이 떨어지는 경우에 대한 이미지를 집중적으로 수집해서 모델의 이슈를 정량적으로 확인해볼 수 있었던것도 이벤트를 통해 얻게 된 주요 성과 중 하나에요. 그간 이슈 파악을 위한 테스트셋을 제외하면 학습 데이터가 충분하지 않았는데, 그러다보니 충분한 학습 데이터가 모일 때까지 모델의 성능과 관련해 경험적인 측면에서 접근할 수 밖에 없었어요. 그렇지만 사내 이벤트를 통해 학습용 이미지 데이터를 많이 모을 수 있었고, 덕분에 특수 케이스들에 대한 테스트셋 구성이나 모델 이슈를 정량적으로 측정해볼 수 있게 되었습니다.

이번 이벤트는 저희 범용 OCR 모델의 성능 향상을 위해 Scene text가 수집 대상이었는데, 아무래도 어느정도 정형화 되어있는 문서의 텍스트에 비해 글자의 모양이나 크기, 특성 등이 각지각색이기 때문에 여기에 훈련된 모델을 갖고 있다는 점이 이후에 여러 다른 태스크로 발전할 수 있는 기본기를 잘 갖추게 된 것이라고 생각해요.

최근 한화생명에 공급하게 된 OCR 모델은 문서에 특화되어 있어 범용 OCR 모델과는 다른 영역이긴 하지만, 업스테이지 Document AI 개발 초기에 한 가지에만 집중해서 만들어진 모델을 구축하기보다는 기본기를 갖춘 모델을 만들자는 저희들만의 가설, 목표를 세웠던 것이 좋은 발판이 되었던 것 같습니다.

업스테이지 OCR의 든든한 기둥이 되고 있는 데이터팀!
향후 계획이나 포부가 궁금해요.

올해 저희 데이터팀의 목표는 엔진 개발에 필요한 데이터를 적시에 잘 공급하는 것이에요.

Document AI 엔진팀과 협업하는 부분이 많다보니 챌린지를 함께 해결할 수 있는 데이터를 잘 만들기 위해 노력하고 있습니다. 그 예로 저희가 최근 집중하고 있는 문서 특화 모델에 필요한 문서 내에서의 손글씨나 체크박스, 도장과 같은것들의 인식 성능을 끌어올리는걸 주력해보고자 해요. 이렇게 다양한 데이터를 적시에 공급하기 위해 데이터 구축 파이프라인의 자동화와 효율화에 필요한 부분들을 고민하고 있습니다.

개인적으로는 원시 데이터의 형태, 모델 학습에 최적화된 어노테이션 방식 등 태스크별로 적합한 데이터를 디자인하는 걸 중점적으로 하고 있는데요. 팀원 분들과 함께 올 한해의 목표를 잘 이뤄내서 업스테이지의 Document AI가 더욱 빛을 발할 수 있도록 노력하고 싶어요!

업스테이지의 광학문자인식 솔루션 ‘OCR Pack’을 활용해 구겨지거나 손상이 있는 진료비 영수증을 처리하는 시연 장면

업스테이지의 광학문자인식 솔루션 ‘Document AI’를 활용해 구겨지거나 손상이 있는 진료비 영수증을 처리하는 시연 장면

 
 
 

Event

데이터의 자산화를 통해 새로운 가치를 만들어 보세요

업스테이지 콘솔에서 Document AI API를 마음껏 테스트해 보시고 원하는 서비스를 만들어 보세요!

  • 2020년 10월 설립한 업스테이지는 이미지에서 원하는 정보를 추출해 이용할 수 있는 OCR기술을 비롯, 고객 정보와 제품 및 서비스 특징을 고려한 추천 기술, 의미기반 검색을 가능케하는 자연어처리 검색기술 등 최신 AI 기술을 다양한 업종에 맞춤형으로 손쉽게 적용할 수 있는 노코드-로코드 솔루션 ‘Upstage AI Pack’을 출시, 고객사들의 AI 혁신을 돕고 있다. Upstage AI Pack을 이용하면 데이터 가공, AI 모델링, 지표 관리를 쉽게 활용할 수 있을 뿐 아니라 지속적인 업데이트를 지원, 상시 최신화 된 AI 기술을 편리하게 사용할 수 있다. 더불어, AI 비즈니스 경험을 녹여낸 실습 위주의 교육과 탄탄한 AI 기초 교육을 통해 AI 비즈니스에 즉각 투입될 수 있는 차별화된 전문 인재를 육성하는 교육콘텐츠 사업에도 적극 나서고 있다.

    업스테이지는 구글, 애플, 아마존, 엔비디아, 메타, 네이버 등 글로벌 빅테크 출신의 멤버를 중심으로 NeurlPS를 비롯, ICLR, CVPR, ECCV, WWW, CHI, WSDM 등 세계적 권위의 AI 학회에 다수의 우수 논문을 발표하고, 온라인 AI 경진대회 캐글(Kaggle)에서 국내 기업 중 유일하게 두 자릿수 금메달을 획득하는 등 독보적인 AI 기술 리더십을 다지고 있다. 업스테이지 김성훈 대표는 홍콩과학기술대학교 교수로 재직하면서 소프트웨어공학과 머신러닝을 융합한 버그 예측, 소스코드 자동생성 등의 연구로 최고의 논문상인 ACM Sigsoft Distinguished Paper Award 4회 수상, International Conference on Software Maintenance에서 10년 동안 가장 영향력 있는 논문상을 받은 세계적인 AI 구루로 꼽히며, 총 700만뷰 이상을 기록한 ‘모두를 위한 딥러닝’ 강사로도 널리 알려져 있다. 또한, 업스테이지의 공동창업자로는 네이버 Visual AI / OCR 을 리드하며 세계적인 성과를 냈던 이활석 CTO와 세계 최고의 번역기 파파고의 모델팀을 리드했던 박은정 CSO가 참여하고 있다.

    업스테이지 홈페이지 바로가기

 
Previous
Previous

인재 영입 담당자들이 말하는 좋은 동료 찾기 - [스타뷰 Vol. 6] People eXperience팀

Next
Next

[AI와 저작권법] 내가 만든 AI 모델은 합법일까, 불법일까?