형태소분석 3

KOMORAN ver 0.6 (자바 한글 형태소 분석기)

한글 형태소 분석기 KOMORAN 0.6 버전을 공개합니다. 네이밍과 관련하여 몇몇 분의 문의를 주셨는데, KOMORAN은 KOrean MORphological ANalyzer의 약자입니다. 버전업 주요 히스토리 ver 0.6 - 기존 0.5 버전 ( 링크 )에 기분석 사전을 추가하였습니다.- 기분석 사전 추가로 인해 분석 속도가 2배 가량 빨라졌습니다. (sec 당 200kb 분석)- VM는 최소 512mb를 필요로 합니다. ( -Xms512m -Xmx512m ) 형태소 분석 Core 라이브러리 파일 형태소 분석 라이브러리 내 사용되는 유틸성 라이브러리필요 라이브러리 파일 사용법은 ver 0.5와 같습니다. ( 링크 ) 본 형태소 분석기는 상업적 용도의 사용을 금지합니다. (안정성 검증 필요, 별도 연..

Legacy/Library 2013.04.02

KOMORAN ver 0.5 (자바 한글 형태소 분석기)

자바로 만든 한글 형태소 분석기를 공개합니다. 이름은 KOMORAN입니다. 현재 자체 테스트는 완료하였습니다. 기본적인 어절 단위 형태소 분석기를 따르고 있습니다. (sec 당 약 100kb 분석) 사용 중 발생하는 에러는 댓글로 부탁드립니다. 필요한 라이브러리 파일은 아래와 같습니다.형태소 분석 core 라이브러리 형태소 분석 라이브러리 내 사용된 유틸성 라이브러리 분석에 필요한 모델 파일들은 아래와 같습니다. 사용법은 아래와 같습니다. public static void main(String[] args) { MorphologyAnalyzer analyzer = new MorphologyAnalyzer("형태소 분석용 파일들이 저장된 루트 폴더"); Listreslut = analyzer.analyze..

Legacy/Library 2013.03.19

형태소 분석기 오픈소스

국내에는 공개적으로 사용가능한 형태소 분석기가 몇개 없습니다. 자연어처리를 전공한 사람으로써 매우 안타깝다고 생각하고 있었습니다. 비록 성능은 좋지 못하지만 기본에 충실한 어절 단위 형태소 분석기를 오픈 소스로 공개하려합니다. 유능한 개발자 분들이 만들어두신 형태소 분석기도 있지만 사전이 잘못 됐는지는 모르겠으나 대부분 명사로 추출되는 경향이 강했습니다. 물론 루씬과 같은 검색기에서 주로 사용되는 품사는 명사류입니다만, 엄연히 말하자면 형태소 분석기와 색인기(명사 추출기)는 다르다고 말씀드리고 싶습니다. 비록 개발능력은 떨어지지만 고전 방식의 형태소 분석기를 제공하도록 하겠습니다. 다양한 분야에서 널리 사용되었으면 하는 작은 바람입니다.

Legacy/Shineware 2012.10.31