#KcBERT #Dataset #Corpus

안녕하세요, KcBERT 학습에 사용한 데이터셋을 Kaggle을 통해 공개합니다!

KcBERT는 네이버 뉴스 댓글 데이터 2019.01.01~2020.06.11자 '랭킹뉴스'의 댓글로 학습한 Pretrain BERT 모델이고, 이번에 공개한 Cleaned 데이터셋으로 학습을 진행했습니다.

데이터셋은 약 12GB의 댓글로 이뤄져 있습니다.

아래 캐글 링크에서 다운 받으시고 여러분만의 Pretrain을 진행해 보세요!

https://www.kaggle.com/junbumlee/kcbert-pretraining-corpus-korean-news-comments

Posted by uniqueone
,