Legacy/Library

KOMORAN ver 1.12 (자바 한글 형태소 분석기)

shine_ing 2013. 6. 19. 02:40

komoran 1.2(예정)

검색 엔진을 위한 색인기 추가

기존 어절 단위 형태소 분석기 외에 문장 단위 형태소 분석기 추가


komoran1.12

-core library

komoran-1.12.jar


-required library

 shineware-common-lib-1.0.jar


-required datas

datas.zip


[version 1.12 history]

score 계산시 발생하던 버그 수정.

- 정확률 향상

n  기호 및 숫자 등을 제외한 순수 한글 어절 ( 약 17만 어절, 33만 형태소 )

u  어절 정확률 : 92.55% -> 93.04%

u  형태소 별 품사 정확률 : 94.97% -> 95.39%

n  기호 및 숫자 등을 포함한 전체 어절 ( 약 20만 어절, 46만 형태소 )

u  어절 정확률 : 84.36% -> 84.80%

u  형태소 별 품사 정확률 90.81% -> 91.20%


[versiong 1.11 history]

왜 1.11을 건너 뛰었지?!?! ㅠㅠ


[version 1.1 history]

고유 명사 약 50만 단어 추가.

- 웹으로 수집 가능한 고유명사 추가

- 한글 위키피디아에 수록된 단어 목록 추가

기타 불규칙 변환 관련된 버그 수정.

사전 추가에 따라 최소 1G 이상의 메모리를 필요로 합니다. (-Xmx1G)

사용법은 1.0 버전 참조.


komoran 1.0

http://shineware.tistory.com/entry/KOMORAN-10


[상업적인 용도로 사용하실 수 없습니다.]