자바 형태소 분석기 10

KOMORAN 3.0 beta

KOMORAN 3.0에 대한 안정성 및 피드백을 받기 위해서 베타 버전을 공개합니다. 2.0 대비 주요 변화는 아래와 같습니다. 속도 개선KOMORAN 2.0 : 초당 0.4MB 분석 (MB/sec)KOMORAN 3.0 : 초당 1.0MB 분석 (MB/sec)기능 추가형태소 분석 결과로 입력 문장 내 형태소 위치 정보 제공형태소 분석 결과 중 명사 추출 기능 제공형태소 분석 결과를 plain text로 제공training 모듈 추가 (직접 training/tuning 하실 수 있습니다!!!!) gradle 적용wiki title을 사전에 적용 기존의 자료 구조를 trie에서 aho-corasick으로 변경하여 속도를 개선하였습니다. (aho-corasick을 찾는데까지 오래 걸림...ㅠㅠ)또한 lucen..

Legacy/Library 2016.05.12

KOMORAN ver 2.4 (자바 한국어 형태소 분석기)

KOMORAN 2.4manual library shineware-common-2.0.jar shineware-ds-1.0.jar data file 주요 업데이트 내용불규칙 사전 정제형태소 분석 시 n-best 분석 결과 제공 기능 추가sample codeString in = "바람과 함께 사라지다를 봤어.";int nbest = 2; List analyzeNbestResult = komoran.analyze(in,nbest);분석 결과best 1바람과 함께 사라지다/NNP+를/JKO보/VV+았/EP+어/EF+./SFbest 2바람과 함께 사라지다/NNP+를/JKO보/VX+았/EP+어/EF+./SF기타어절 단위 n-best 형태소 분석은 분석 대상 문장을 공백 단위로 tokenize하여 어절 단위로 입력불..

Legacy/Library 2014.11.24

KOMORAN ver 2.3 (자바 한국어 형태소 분석기)

KOMORAN 2.3manual library data file 주요 업데이트 내용불규칙 사전 정제models-full에 포함된 단어 중 오분석을 유발할 수 있는 단어 정제 버전 히스토리[2.2]불용 로그 제거공백 미포함 형태소 분석 기능 추가[2.1.2]사용자 환경에 따른 용량별 데이터 제공조사 결합 규칙 적용연결 어미 품사 확장기타 버그 수정[2.1.1]연속된 영어(SL), 숫자(SN), 한자(SH)에 대한 분석 결과 변경버그 수정 및 안정화[2.1]형태소 분석기 안정화 및 속도 개선[2.0.4]띄어쓰기 관련 버그 및 기타 안정화[2.0.3]사용자 사전 포맷 오류 수정[2.0.1]분석 중 에러가 발생하는 치명적 오류 수정[2.0.0]komoran 2.0 beta 최초 공개[2.0.0] 미만링크 참조 ..

Legacy/Library 2014.09.29

KOMORAN ver 2.2 (자바 한국어 형태소 분석기)

KOMORAN 2.2librarydata file (기존 2.1.2 버전과 동일)models-light.zipmodels-full.zip 주요 업데이트 내용일부 문장 분석 시 특정 로그가 출력되는 현상 제거형태소 분석 시 공백 포함/미포함 분석 기능 추가공백 포함 분석(2.2 이전 버전과 동일한 메소드 사용)sample codeString in="바람과 함께 사라지다를 봤어."; List analyzeResultList = komoran.analyze(in);분석 결과바람과 함께 사라지다/NNP+를/JKO보/VV+았/EP+어/EF+./SF공백 미포함 분석(2.2 버전 신규 메소드)sample codeString in="바람과 함께 사라지다를 봤어."; List analyzeResultList = komo..

Legacy/Library 2014.09.12

KOMORAN 2.0 beta

안녕하세요. 거의 1년만에 공개 포스팅을 작성합니다. 다름이 아니라 내부적으로 계속 KOMORAN에 대해서 업데이트를 진행 중에 있었으며, 이제 그에 따른 결과물을 다시 한번 공유하고자 이렇게 글을 작성합니다. 1.x 버전과 마찬가지로 이번 버전도 많은 분들의 피드백과 도움이 있어야 더 좋은 형태소 분석기로써의 면모를 갖출 수 있을 것 같습니다. 먼저 속도, 정확률 측면에서 성능이 좋아졌으며 부가적으로 아래와 같이 공백이 포함된 고유명사를 분석할 수 있는 기능이 추가되었습니다. 입력 문장 : 바람과 함께 사라지다를 봤습니다.사용자 사전 : 바람과 함께 사라지다/NNP분석 결과바람과 함께 사라디자/NNP+를/JKO보/VV+았/EP+습니다/EF+./SF 위와 같은 기능을 추가한 이유는 기존의 어절 단위로 분..

Legacy/Library 2014.07.21

KOMORAN ver 1.12 (자바 한글 형태소 분석기)

komoran 1.2(예정)검색 엔진을 위한 색인기 추가기존 어절 단위 형태소 분석기 외에 문장 단위 형태소 분석기 추가 komoran1.12-core library -required library shineware-common-lib-1.0.jar -required datas [version 1.12 history]score 계산시 발생하던 버그 수정.- 정확률 향상n 기호 및 숫자 등을 제외한 순수 한글 어절 ( 약 17만 어절, 33만 형태소 )u 어절 정확률 : 92.55% -> 93.04%u 형태소 별 품사 정확률 : 94.97% -> 95.39%n 기호 및 숫자 등을 포함한 전체 어절 ( 약 20만 어절, 46만 형태소 )u 어절 정확률 : 84.36% -> 84.80%u 형태소 별 품사 정확..

Legacy/Library 2013.06.19

KOMORAN ver 1.1 (자바 한글 형태소 분석기)

komoran 1.2(예정)검색 엔진을 위한 색인기 추가기존 어절 단위 형태소 분석기 외에 문장 단위 형태소 분석기 추가 komoran 1.1-core library-required library-required data files 고유 명사 약 50만 단어 추가.- 웹으로 수집 가능한 고유명사 추가- 한글 위키피디아에 수록된 단어 목록 추가기타 불규칙 변환 관련된 버그 수정.사전 추가에 따라 최소 1G 이상의 메모리를 필요로 합니다. (-Xmx1G)사용법은 1.0 버전 참조. komoran 1.0http://shineware.tistory.com/entry/KOMORAN-10

Legacy/Library 2013.06.08

KOMORAN ver 1.0 (자바 한글 형태소 분석기)

1. KOMORAN? KOMORAN은 SHINEWARE SOFT에서 제작한 한국어 형태소 분석기로서 자바 라이브러리 형태(.jar)로 제공됩니다. KOMORAN은 기존 형태소 분석기의 연구 결과들을 바탕으로 하여 ‘속도’, ‘성능’, ‘사전 관리 비용’에서 가장 우수한 성능을 낼 수 있도록 설계되었습니다. 2. KOMORAM 특징 KOMORAN은 자소 단위, 확률 기반의 형태소 분석기 입니다. 속도, 성능, 사전 관리 측면에서 기존 형태소 분석기와 차별되는 특징은 아래와 같습니다. - 속도 n Hash 기반의 파싱 방법을 적용하여 한글 분석 속도 향상 n TRIE 기반의 사전 구성으로 사전 재탐색 횟수를 최소화하여 사전 탐색 속도 향상 n KOMORAN 내부의 자료형(Data Type)을 대부분 정수(I..

Legacy/Library 2013.05.18

KOMORAN ver 0.5 (자바 한글 형태소 분석기)

자바로 만든 한글 형태소 분석기를 공개합니다. 이름은 KOMORAN입니다. 현재 자체 테스트는 완료하였습니다. 기본적인 어절 단위 형태소 분석기를 따르고 있습니다. (sec 당 약 100kb 분석) 사용 중 발생하는 에러는 댓글로 부탁드립니다. 필요한 라이브러리 파일은 아래와 같습니다.형태소 분석 core 라이브러리 형태소 분석 라이브러리 내 사용된 유틸성 라이브러리 분석에 필요한 모델 파일들은 아래와 같습니다. 사용법은 아래와 같습니다. public static void main(String[] args) { MorphologyAnalyzer analyzer = new MorphologyAnalyzer("형태소 분석용 파일들이 저장된 루트 폴더"); Listreslut = analyzer.analyze..

Legacy/Library 2013.03.19

형태소 분석기 오픈소스

국내에는 공개적으로 사용가능한 형태소 분석기가 몇개 없습니다. 자연어처리를 전공한 사람으로써 매우 안타깝다고 생각하고 있었습니다. 비록 성능은 좋지 못하지만 기본에 충실한 어절 단위 형태소 분석기를 오픈 소스로 공개하려합니다. 유능한 개발자 분들이 만들어두신 형태소 분석기도 있지만 사전이 잘못 됐는지는 모르겠으나 대부분 명사로 추출되는 경향이 강했습니다. 물론 루씬과 같은 검색기에서 주로 사용되는 품사는 명사류입니다만, 엄연히 말하자면 형태소 분석기와 색인기(명사 추출기)는 다르다고 말씀드리고 싶습니다. 비록 개발능력은 떨어지지만 고전 방식의 형태소 분석기를 제공하도록 하겠습니다. 다양한 분야에서 널리 사용되었으면 하는 작은 바람입니다.

Legacy/Shineware 2012.10.31