#BERT #KcBERT 안녕하세요! 한국어 댓글 데이터셋으로 BERT Pretrain을 처음부터 진행해 만든 KcBERT를 공개합니다 :

Deep Learning/NLP 2020. 7. 20. 14:22

#BERT #KcBERT

안녕하세요!

한국어 댓글 데이터셋으로 BERT Pretrain을 처음부터 진행해 만든 KcBERT를 공개합니다 :)

공개된 한국어 BERT는 대부분 한국어 위키, 뉴스 기사, 책 등 잘 정제된 데이터를 기반으로 학습한 모델입니다. 한편, 실제로 NSMC와 같은 댓글형 데이터셋은 정제되지 않았고 구어체 특징에 신조어가 많으며, 오탈자 등 공식적인 글쓰기에서 나타나지 않는 표현들이 빈번하게 등장합니다.

KcBERT는 위와 같은 특성의 데이터셋에 적용하기 위해, 네이버 뉴스에서 댓글과 대댓글을 수집해, 토크나이저와 BERT모델을 처음부터 학습한 Pretrained BERT 모델입니다.

KcBERT는 Huggingface의 Transformers 라이브러리를 통해 간편히 불러와 사용할 수 있습니다. (별도의 파일 다운로드가 필요하지 않습니다!)

좀더 자세한 내용은 아래 Github Repo를 참고해주세요! :D

[https://github.com/Beomi/KcBERT](https://github.com/Beomi/KcBERT)

'Deep Learning > NLP' 카테고리의 다른 글

요즘 화제가 되고 있는 #OpenAI의 #GPT3 원리를 멋진 애니메이션 비주얼과 함께 설명한 글입니다. (영어) [https://jalamm (0)	2020.08.04
안녕하세요. 제가 자연어처리 입문하면서 도움되었던 자료들 공유해보려고 합니다! 딥러닝을 이용한 자연어 처리 입문 [https://wikidocs (0)	2020.07.22
[https://github.com/catSirup/naver_kin_crawling](https://github.com/catSirup/nav (0)	2020.02.05
안녕하세요 박찬준입니다. 최근 AI HUB에서 ([http://www.aihub.or.kr/](http://www.aihub.or.kr/))에 (0)	2020.01.16
#nlp_news #tokenizers #ner #felix_hill #ai_dungeon 올해의 첫 NLP 뉴스입니다! 최근 자연어 처리 관 (0)	2020.01.15