새해부터 데이터셋 Bomb이 터졌네요. Eleuther AI 에서 공개적으로 수집 및 훈련에 사용이 가능한 영어 텍스트 825GB 코퍼스 Pile을 공개하였습니다.

저자진은 다양한 토픽으로 구성된 코퍼스로 언어 모델을 학습시켰을 때, 다운스트림 태스크에서 일반화가 잘 된다는 최근 연구 결과들을 따라 다양한 주제의 코퍼스를 모으기 위해 특히 신경을 많이 썼다고 합니다.

이외에도 코퍼스에서 등장하는 인종별, 성별 바이어스 등에 대한 분석, 경멸적 표현들에 대한 분석도 굉장히 Time-consuming 하지만 수행을 했다고 하네요 👍

또한 GPT-2 사이즈의 모델을 자신들이 공개한 Pile에 대해 학습시켰을 때, CC-100 (영어)에 대해 학습된 모델보다 여러 도메인에서 좋은 성능을 보이는 것까지 실험을 통해 확인하였습니다.

커뮤니티에서는 GPT-X의 democratize를 위한 첫 번째 움직임이라며, 굉장히 많은 호응을 얻고 있습니다 🤭

link: https://pile.eleuther.ai/

Posted by uniqueone
,