대규모 한국어 텍스트 데이터로 학습한 pre-training 언어 모델을 공개합니다!! 블로그, 리뷰, 댓글과 같이 사람들이 직접 사용하는
Deep Learning/NLP 2020. 12. 28. 13:39대규모 한국어 텍스트 데이터로 학습한 pre-training 언어 모델을 공개합니다!!
블로그, 리뷰, 댓글과 같이 사람들이 직접 사용하는 텍스트를 수집하고 전처리하여 얻은 70Gb의 데이터로 Bert, Albert, Electra의 base 모델을 학습하였습니다. Pre-release버전을 공개하며 내년 초 더 많은 모델을 공개할 예정입니다.
Huggingface를 통해 사용할 수 있으며, fine-tuning시 기존에 공개된 모델에 버금가거나 더 나은 성능을 보여주고 있습니다.
이번 모델은 제가 프로젝트를 진행하다 공개하게 되었습니다.
텍스트, 이미지, 음성등의 인공지능을 활용해 다양한 비즈니스모델을 단기간 테스트하고 평가하며 좋은 서비스를 찾아가는 조직을 구성하고 있으니 관심 있으신 분들은 연락주십시오.
자세한 사항은 아래 Github을 참고해주세요. 감사합니다!
https://github.com/kiyoungkim1/LM-kor