Legacy/Library

KOMORAN 2.0 beta

shine_ing 2014. 7. 21. 11:37

안녕하세요. 거의 1년만에 공개 포스팅을 작성합니다.


다름이 아니라 내부적으로 계속 KOMORAN에 대해서 업데이트를 진행 중에 있었으며, 

이제 그에 따른 결과물을 다시 한번 공유하고자 이렇게 글을 작성합니다.


1.x 버전과 마찬가지로 이번 버전도 많은 분들의 피드백과 도움이 있어야 더 좋은 형태소 분석기로써의 면모를 갖출 수 있을 것 같습니다.


먼저 속도, 정확률 측면에서 성능이 좋아졌으며 부가적으로 아래와 같이 공백이 포함된 고유명사를 분석할 수 있는 기능이 추가되었습니다.


  • 입력 문장 : 바람과 함께 사라지다를 봤습니다.
  • 사용자 사전 : 바람과 함께 사라지다/NNP
  • 분석 결과
    • 바람과 함께 사라디자/NNP+를/JKO
    • 보/VV+았/EP+습니다/EF+./SF


 위와 같은 기능을 추가한 이유는 기존의 어절 단위로 분석 결과를 제공하는 형태소 분석기의 경우 영화명, 상품명, 행사명 등과 같이 띄어쓰기가 포함된 고유명사를 분석하는데 큰 걸림돌이 되었습니다. 어절 단위 형태소 분석 결과를 토대로 기계 학습, 규칙 등을 사용하는 후처리 모듈을 통해서만 처리가 가능하였습니다. 이에 대한 근본적인 문제를 해결하기 위해서 위와 같은 기능을 추가하였습니다.


현재 마무리 단계에 있으며 기분석 사전에 대한 적용 방법에 대해서 고민 중입니다. 기존 1.x 버전이 어절 단위 기분석 사전이였다면 현재 2.0 버전 부터는 문장 단위 기분석 사전이 될 확률이 높습니다. 이와 관련된 이슈는 추후에 정리하여 공지하도록 하겠습니다.


공개는 이번달 말쯤으로 예정되어있습니다.

빨리 마무리 지어서 공개하도록 하겠습니다.

이번에도 많은 분들이 도움을 주시길 바라겠습니다. 감사합니다.