자바로 만든 한글 형태소 분석기를 공개합니다.
이름은 KOMORAN입니다.
현재 자체 테스트는 완료하였습니다.
기본적인 어절 단위 형태소 분석기를 따르고 있습니다. (sec 당 약 100kb 분석)
사용 중 발생하는 에러는 댓글로 부탁드립니다.
필요한 라이브러리 파일은 아래와 같습니다.
- 형태소 분석 core 라이브러리
- 형태소 분석 라이브러리 내 사용된 유틸성 라이브러리
- 분석에 필요한 모델 파일들은 아래와 같습니다.
사용법은 아래와 같습니다.
public static void main(String[] args) {
MorphologyAnalyzer analyzer = new MorphologyAnalyzer("형태소 분석용 파일들이 저장된 루트 폴더");
List<List<Pair<String,String>>>reslut = analyzer.analyze("감기는 자주 걸리는 병이다.");
for (List<Pair<String, String>> wordResult : reslut) {
for (Pair<String, String> pair : wordResult) {
System.out.println(pair);
}
System.out.println();
}
}
사용법과 관련하여 문의 사항이 있어서 스크린샷을 첨부하였습니다.
datas 밑에 필요한 파일들을 위치시켜 놓습니다.
형태소 분석기 객체 생성시에 위에 위치한 폴더 경로인 "datas/"를 지정해줍니다.
출력 결과는 아래와 같습니다.
Pair [first=감기, second=VV]
Pair [first=는, second=ETM]
Pair [first=자주, second=MAG]
Pair [first=걸리, second=VV]
Pair [first=는, second=ETM]
Pair [first=병, second=NNG]
Pair [first=이, second=VCP]
Pair [first=다, second=EF]
Pair [first=., second=SF]
본 형태소 분석기는 상업적 용도의 사용을 금지합니다. (안정성 검증 필요, 별도 연락)
개인 및 비상업적 용도로만 사용을 하실 수 있습니다.
※ 현재 자연어처리와 관련된 라이브러리 및 엔진들을 계속적으로 연구하고 만들고자 합니다. 함께 하시길 원하시는 분은 연락부탁드립니다.
==========[2013.03.20. 14:50분 추가]==========
- 현재 성능 테스트, 오류 및 버그 분석을 위해서 기분석 사전(FWD)을 사용하지 않고 있습니다.
==========[2013.03.22. 14:50분 추가]==========
- 현재 내용은 4월 1일부터 새로운 버전으로 릴리즈 예정입니다. 이용에 참고 하시기 바랍니다.
==========[2013.04.01. 23:50분 추가]==========
- 기분석 사전이 포함된 새로운 버전으로 릴리즈 되었습니다. 링크 참고 하시기 바랍니다. ( KOMORAN 0.6 )
- 현재 버전은 기존에 사용중이신 분들을 위해 그대로 유지하겠습니다.
==========[2013.05.20. 11:51분 추가]==========
- 1.0 버전이 릴리즈 되었습니디다. 링크 참고 하시기 바랍니다. ( KOMORAN 1.0 )
'Legacy > Library' 카테고리의 다른 글
KOMORAN 2.0 beta (7) | 2014.07.21 |
---|---|
KOMORAN ver 1.12 (자바 한글 형태소 분석기) (29) | 2013.06.19 |
KOMORAN ver 1.1 (자바 한글 형태소 분석기) (10) | 2013.06.08 |
KOMORAN ver 1.0 (자바 한글 형태소 분석기) (17) | 2013.05.18 |
KOMORAN ver 0.6 (자바 한글 형태소 분석기) (6) | 2013.04.02 |