대규모 한국어 텍스트 데이터로 학습한 pre-training 언어 모델을 공개합니다!!​

블로그, 리뷰, 댓글과 같이 사람들이 직접 사용하는 텍스트를 수집하고 전처리하여 얻은 70Gb의 데이터로 Bert, Albert, Electra의 base 모델을 학습하였습니다. Pre-release버전을 공개하며 내년 초 더 많은 모델을 공개할 예정입니다.​
Huggingface를 통해 사용할 수 있으며, fine-tuning시 기존에 공개된 모델에 버금가거나 더 나은 성능을 보여주고 있습니다.​

이번 모델은 제가 프로젝트를 진행하다 공개하게 되었습니다. ​
텍스트, 이미지, 음성등의 인공지능을 활용해 다양한 비즈니스모델을 단기간 테스트하고 평가하며 좋은 서비스를 찾아가는 조직을 구성하고 있으니 관심 있으신 분들은 연락주십시오.​

자세한 사항은 아래 Github을 참고해주세요. 감사합니다!
https://github.com/kiyoungkim1/LM-kor

Posted by uniqueone
,