오늘은 논문대신 프로젝트를 하나 짧게 소개드립니다. 회사에서 OCR엔진을 만들기에는 너무 인력이 많이 필요하고 클라우드 OCR를 쓰기엔 제약이

Deep Learning/resources 2020. 7. 9. 15:01

https://www.facebook.com/groups/KerasKorea/permalink/3716139575068647/

이상훈

오늘은 논문대신 프로젝트를 하나 짧게 소개드립니다. 회사에서 OCR엔진을 만들기에는 너무 인력이 많이 필요하고 클라우드 OCR를 쓰기엔 제약이 있거나 공짜로 쓰고 싶을때 도움이 될만한 OCR 오

www.facebook.com

오늘은 논문대신 프로젝트를 하나 짧게 소개드립니다.

회사에서 OCR엔진을 만들기에는 너무 인력이 많이 필요하고 클라우드 OCR를 쓰기엔 제약이 있거나 공짜로 쓰고 싶을때 도움이 될만한 OCR 오픈소스입니다. (https://github.com/JaidedAI/EasyOCR)

아쉽게도 TF는 아니고 Pytorch로 되어있지만 딥러닝은 아예 몰라도되고 Python만 학생수준으로 쓸 수 있으면 전혀 상관없습니다.

이제는 많은 모델들이 나와서 상대적으로 인기가 식었지만 예전에 OCR 오픈소스로 항상 거론되던 구글이 후원한 Tesseract보다 더 높은 정확도를 보이고 다양한 언어를 제공합니다. 물론 Tesseract도 최근에는 LSTM을 도입하는 등 다양한 시도를 하고 있습니다.

EasyOCR은 네이버의 CRAFT를 Detection 모델로 사용하고 있고 CRNN을 기반으로 Recognition을 합니다.(Restnet-LSTM-CTC) 그리고 오타보정을 위한 greedy, beamsearch, wordbeamsearch도 옵션으로 제공합니다.

또한, 특이하게도 한국어, 중국어, 태국어 등을 지원하고 프리트레이닝 모델도 같이 제공합니다. 사용법도 매우 간단해서 모델개념을 알 필요 없이 자동으로 다운받아서 수행합니다. 랭귀지 모델도 업데이트를 예고하고 있고 지속적으로 업그레이드 예정이라 OCR을 심플하게 비즈니스에 적용하기에 좋은(특히 무료고 기반지식이 전무해도 되니) 오픈소스로 보입니다.

'Deep Learning > resources' 카테고리의 다른 글

[Github/Repo] Pytorch Metric Learning 딥러닝 모델을 훈련 시킨다는 것은 '어떤 Loss를 어떻게 줄일것이냐' 입 (0)	2020.07.14
Latest from Purdue and Chicago researchers: Low-Power Object Counting! For proj (0)	2020.07.10
오늘 많은 분들이 공유해주신 @Sebastian Raschka 님의 80여개가 넘는 기본 뉴럴넷과 CNN, RNN, GNN들 멋진 모델을 보고 (0)	2020.06.30
안녕하세요 PR12에 새로 합류한 이윤성이라고 합니다. 지난 주 제가 발표했던 PR254 -SFNet: Learning Object-awar (0)	2020.06.22
여러분, 안녕하세요. 간만에 인사드립니다. 아실 만한 분들은 아시겠지만 ratsgo라는 필명으로 블로그를 운영하고 있는 이기창이라고 합니다. s (0)	2020.06.22