https://www.facebook.com/groups/KerasKorea/permalink/3716139575068647/

이상훈

오늘은 논문대신 프로젝트를 하나 짧게 소개드립니다. 회사에서 OCR엔진을 만들기에는 너무 인력이 많이 필요하고 클라우드 OCR를 쓰기엔 제약이 있거나 공짜로 쓰고 싶을때 도움이 될만한 OCR 오

www.facebook.com



오늘은 논문대신 프로젝트를 하나 짧게 소개드립니다.

회사에서 OCR엔진을 만들기에는 너무 인력이 많이 필요하고 클라우드 OCR를 쓰기엔 제약이 있거나 공짜로 쓰고 싶을때 도움이 될만한 OCR 오픈소스입니다. (https://github.com/JaidedAI/EasyOCR)

아쉽게도 TF는 아니고 Pytorch로 되어있지만 딥러닝은 아예 몰라도되고 Python만 학생수준으로 쓸 수 있으면 전혀 상관없습니다.

이제는 많은 모델들이 나와서 상대적으로 인기가 식었지만 예전에 OCR 오픈소스로 항상 거론되던 구글이 후원한 Tesseract보다 더 높은 정확도를 보이고 다양한 언어를 제공합니다. 물론 Tesseract도 최근에는 LSTM을 도입하는 등 다양한 시도를 하고 있습니다.

EasyOCR은 네이버의 CRAFT를 Detection 모델로 사용하고 있고 CRNN을 기반으로 Recognition을 합니다.(Restnet-LSTM-CTC) 그리고 오타보정을 위한 greedy, beamsearch, wordbeamsearch도 옵션으로 제공합니다.

또한, 특이하게도 한국어, 중국어, 태국어 등을 지원하고 프리트레이닝 모델도 같이 제공합니다. 사용법도 매우 간단해서 모델개념을 알 필요 없이 자동으로 다운받아서 수행합니다. 랭귀지 모델도 업데이트를 예고하고 있고 지속적으로 업그레이드 예정이라 OCR을 심플하게 비즈니스에 적용하기에 좋은(특히 무료고 기반지식이 전무해도 되니) 오픈소스로 보입니다.

Posted by uniqueone
,