안녕하세요, 최근에 SKTBrain에서 공개한 KoBERT를 이용해서 간단한 한국어 객체명 인식기를 만들어봤습니다. NER에 관심있는 분들은 한 번 보셔도 좋을 것 같습니다 기존 CNN-BiLSTM 보다 학습도 빠..
Deep Learning/dataset 2019. 11. 2. 08:19안녕하세요, 최근에 SKTBrain에서 공개한 KoBERT를 이용해서 간단한 한국어 객체명 인식기를 만들어봤습니다. NER에 관심있는 분들은 한 번 보셔도 좋을 것 같습니다
기존 CNN-BiLSTM 보다 학습도 빠르고, LM을 학습해서 그런지 오타에도 좀 더 강건한 편인것 같습니다. (형태소 태그 자질이 없어도 NER이 잘되는건 진짜 좀 신기하네요) CRF 붙이면 성능도 좀 더 좋아지는 것 같습니다.
데이터는 한국해양대학교 자연언어처리 연구실에서 공개한 데이터를 사용했습니다 (NER 데이터셋을 구하기 어려운데 괜찮은 데이터셋 같습니다)
https://www.facebook.com/groups/PyTorchKR/permalink/1519149218224754/?sfnsn=mo
기존 CNN-BiLSTM 보다 학습도 빠르고, LM을 학습해서 그런지 오타에도 좀 더 강건한 편인것 같습니다. (형태소 태그 자질이 없어도 NER이 잘되는건 진짜 좀 신기하네요) CRF 붙이면 성능도 좀 더 좋아지는 것 같습니다.
데이터는 한국해양대학교 자연언어처리 연구실에서 공개한 데이터를 사용했습니다 (NER 데이터셋을 구하기 어려운데 괜찮은 데이터셋 같습니다)
https://www.facebook.com/groups/PyTorchKR/permalink/1519149218224754/?sfnsn=mo