Legacy/Library

KOMORAN ver 0.5 (자바 한글 형태소 분석기)

shine_ing 2013. 3. 19. 00:40

자바로 만든 한글 형태소 분석기를 공개합니다.


이름은 KOMORAN입니다.


현재 자체 테스트는 완료하였습니다.


기본적인 어절 단위 형태소 분석기를 따르고 있습니다. (sec 당 약 100kb 분석)


사용 중 발생하는 에러는 댓글로 부탁드립니다.


필요한 라이브러리 파일은 아래와 같습니다.

    • 형태소 분석 라이브러리 내 사용된 유틸성 라이브러리


    • 분석에 필요한 모델 파일들은 아래와 같습니다.



사용법은 아래와 같습니다.


public static void main(String[] args) {

MorphologyAnalyzer analyzer = new MorphologyAnalyzer("형태소 분석용 파일들이 저장된 루트 폴더");

List<List<Pair<String,String>>>reslut =  analyzer.analyze("감기는 자주 걸리는 병이다.");

for (List<Pair<String, String>> wordResult : reslut) {

for (Pair<String, String> pair : wordResult) {

System.out.println(pair);

}

System.out.println();

}

}


사용법과 관련하여 문의 사항이 있어서 스크린샷을 첨부하였습니다.

datas 밑에 필요한 파일들을 위치시켜 놓습니다.



형태소 분석기 객체 생성시에 위에 위치한 폴더 경로인 "datas/"를 지정해줍니다.




출력 결과는 아래와 같습니다.


Pair [first=감기, second=VV]

Pair [first=는, second=ETM]


Pair [first=자주, second=MAG]


Pair [first=걸리, second=VV]

Pair [first=는, second=ETM]


Pair [first=병, second=NNG]

Pair [first=이, second=VCP]

Pair [first=다, second=EF]

Pair [first=., second=SF]


본 형태소 분석기는 상업적 용도의 사용을 금지합니다. (안정성 검증 필요, 별도 연락)


개인 및 비상업적 용도로만 사용을 하실 수 있습니다.


※ 현재 자연어처리와 관련된 라이브러리 및 엔진들을 계속적으로 연구하고 만들고자 합니다. 함께 하시길 원하시는 분은 연락부탁드립니다.


==========[2013.03.20. 14:50분 추가]==========

- 현재 성능 테스트, 오류 및 버그 분석을 위해서 기분석 사전(FWD)을 사용하지 않고 있습니다.


==========[2013.03.22. 14:50분 추가]==========

- 현재 내용은 4월 1일부터 새로운 버전으로 릴리즈 예정입니다. 이용에 참고 하시기 바랍니다.


==========[2013.04.01. 23:50분 추가]==========

- 기분석 사전이 포함된 새로운 버전으로 릴리즈 되었습니다. 링크 참고 하시기 바랍니다. ( KOMORAN 0.6 )

- 현재 버전은 기존에 사용중이신 분들을 위해 그대로 유지하겠습니다.


==========[2013.05.20. 11:51분 추가]==========

- 1.0 버전이 릴리즈 되었습니디다. 링크 참고 하시기 바랍니다. ( KOMORAN 1.0 )