Legacy/Library

KOMORAN 3.0 beta

shine_ing 2016. 5. 12. 02:00

KOMORAN 3.0에 대한 안정성 및 피드백을 받기 위해서 베타 버전을 공개합니다.


2.0 대비 주요 변화는 아래와 같습니다.


  • 속도 개선
    • KOMORAN 2.0 : 초당 0.4MB 분석 (MB/sec)
    • KOMORAN 3.0 : 초당 1.0MB 분석 (MB/sec)
  • 기능 추가
    • 형태소 분석 결과로 입력 문장 내 형태소 위치 정보 제공
    • 형태소 분석 결과 중 명사 추출 기능 제공
    • 형태소 분석 결과를 plain text로 제공
    • training 모듈 추가 (직접 training/tuning 하실 수 있습니다!!!!)
  • gradle 적용
  • wiki title을 사전에 적용


기존의 자료 구조를 trie에서 aho-corasick으로 변경하여 속도를 개선하였습니다. (aho-corasick을 찾는데까지 오래 걸림...ㅠㅠ)

또한 lucene 기반의 analyzer에서 쉽게 적용할 수 있도록 분석 결과 token의 position 정보를 제공합니다. (개선해야 될 부분이 많습니다...ㅠ)

아직 KOMORAN 2.0처럼 많이 부족합니다.

그러나 KOMORAN 2.0 처럼 많이 사용해주시고 많은 피드백을 주신다면 감사드리겠습니다. (_ _)

사용법 및 소스는 아래 링크에서 확인하실 수 있습니다.

https://github.com/shin285/KOMORAN


덧, 있어보이려고 github repository에 badge를 2개나 붙였으나....개발 능력 부족으로 인해 coverage가 매우 낮지만....동작에는 문제가 없습니다..ㅠㅠ