언론재단은 2월 23일 공식 채널을 통해 "언론사를 위한 언어정보 자원 개발 사업의 결과물인 KPF-BERT를 공개했다"고 전했다.
언론재단은 언론사들이 겪고 있는 AI 기술 도입의 어려움을 해결하고자, 이러한 사업을 추진했다.
KPF-BERT는 구글에서 개발한 자연어 처리 딥러닝 언어 모델인 BERT에 언론재단이 보유한 빅카인즈 기사 데이터를 학습시킨 결과물이다.
KPF-BERT는 한층 향상됐다. 2000년부터 2021년 8월까지 빅카인즈 기사 8000만 건 중 4000만 건을 학습하게 했다. 그 결과 예측 단어 이후의 단어까지 양방향으로 참조해 그 의미를 더 잘 이해하게 됐다.
언론재단은 "KPF-BERT는 SKT의 koBERT보다 독해 능력이 뛰어나다"고 주장했다.
KPF-BERT의 구축과 활용을 위한 안내 내용은 언론재단 공식 누리집에서 확인할 수 있다. 자료는 공개돼 있고, 무상이다.
클러스터링 기술은 언론재단 갓허브에 공개돼 있다.
언론재단은 이를 통해 맞춤법 검사, 혐오 표현 검출 및 순화, 관심 사안 기사에 대한 긍정·부정 논조 파악을 기대했다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지