대규모 한국어 텍스트 데이터로 학습한 pre-training 언어 모델을 공개합니다!!​ ​ 블로그, 리뷰, 댓글과 같이 사람들이 직접 사용하는

대규모 한국어 텍스트 데이터로 학습한 pre-training 언어 모델을 공개합니다!! 블로그, 리뷰, 댓글과 같이 사람들이 직접 사용하는

Deep Learning/NLP 2020. 12. 28. 13:39

대규모 한국어 텍스트 데이터로 학습한 pre-training 언어 모델을 공개합니다!!

블로그, 리뷰, 댓글과 같이 사람들이 직접 사용하는 텍스트를 수집하고 전처리하여 얻은 70Gb의 데이터로 Bert, Albert, Electra의 base 모델을 학습하였습니다. Pre-release버전을 공개하며 내년 초 더 많은 모델을 공개할 예정입니다.
Huggingface를 통해 사용할 수 있으며, fine-tuning시 기존에 공개된 모델에 버금가거나 더 나은 성능을 보여주고 있습니다.

이번 모델은 제가 프로젝트를 진행하다 공개하게 되었습니다.
텍스트, 이미지, 음성등의 인공지능을 활용해 다양한 비즈니스모델을 단기간 테스트하고 평가하며 좋은 서비스를 찾아가는 조직을 구성하고 있으니 관심 있으신 분들은 연락주십시오.

자세한 사항은 아래 Github을 참고해주세요. 감사합니다!
https://github.com/kiyoungkim1/LM-kor

'Deep Learning > NLP' 카테고리의 다른 글

새해부터 데이터셋 Bomb이 터졌네요. Eleuther AI 에서 공개적으로 수집 및 훈련에 사용이 가능한 영어 텍스트 825GB 코퍼스 Pil (0)	2021.01.04
안녕하세요 Tensorflow KR. 이번에 제가 하고있는 논문스터디에서 기계번역 서베이를 준비하면서 자연어처리 백그라운드(Seq2Seq 부터 (0)	2020.12.28
안녕하세요. 한국어 문장 분리기로 많은 사랑을 받고 있는 Korean Sentence Splitter(KSS)의 새로운 소식을 어디다 남길까 (0)	2020.12.22
안녕하세요. Tensorflow KR. 얼마전에 SKT에서 한국어 Seq2Seq 사전학습 모델인 KoBart를 공개하였는데요. 이를 git (2)	2020.12.16
안녕하세요! 최근 모두의 말뭉치가 새로 공개된 겸하여 KoELECTRA-v3를 새로 만들었습니다:) 모두의 말뭉치를 포함한 약 34GB 데이터 (0)	2020.10.12