KOMORAN 3.0에 대한 안정성 및 피드백을 받기 위해서 베타 버전을 공개합니다.
2.0 대비 주요 변화는 아래와 같습니다.
- 속도 개선
- KOMORAN 2.0 : 초당 0.4MB 분석 (MB/sec)
- KOMORAN 3.0 : 초당 1.0MB 분석 (MB/sec)
- 기능 추가
- 형태소 분석 결과로 입력 문장 내 형태소 위치 정보 제공
- 형태소 분석 결과 중 명사 추출 기능 제공
- 형태소 분석 결과를 plain text로 제공
- training 모듈 추가 (직접 training/tuning 하실 수 있습니다!!!!)
- gradle 적용
- wiki title을 사전에 적용
기존의 자료 구조를 trie에서 aho-corasick으로 변경하여 속도를 개선하였습니다. (aho-corasick을 찾는데까지 오래 걸림...ㅠㅠ)
또한 lucene 기반의 analyzer에서 쉽게 적용할 수 있도록 분석 결과 token의 position 정보를 제공합니다. (개선해야 될 부분이 많습니다...ㅠ)
아직 KOMORAN 2.0처럼 많이 부족합니다.
그러나 KOMORAN 2.0 처럼 많이 사용해주시고 많은 피드백을 주신다면 감사드리겠습니다. (_ _)
사용법 및 소스는 아래 링크에서 확인하실 수 있습니다.
https://github.com/shin285/KOMORAN
덧, 있어보이려고 github repository에 badge를 2개나 붙였으나....개발 능력 부족으로 인해 coverage가 매우 낮지만....동작에는 문제가 없습니다..ㅠㅠ
'Legacy > Library' 카테고리의 다른 글
KOMORAN ver 2.4 for python3 (8) | 2014.12.26 |
---|---|
KOMORAN 2.x 라이센스 변경 공지 (42) | 2014.12.08 |
KOMORAN ver 2.4 (자바 한국어 형태소 분석기) (15) | 2014.11.24 |
EN-POSTA ver 0.5 (자바 영어 형태소 분석기) (10) | 2014.11.06 |
KOMORAN ver 2.3 (자바 한국어 형태소 분석기) (16) | 2014.09.29 |