Legacy/Library 17

KOMORAN 3.0 beta

KOMORAN 3.0에 대한 안정성 및 피드백을 받기 위해서 베타 버전을 공개합니다. 2.0 대비 주요 변화는 아래와 같습니다. 속도 개선KOMORAN 2.0 : 초당 0.4MB 분석 (MB/sec)KOMORAN 3.0 : 초당 1.0MB 분석 (MB/sec)기능 추가형태소 분석 결과로 입력 문장 내 형태소 위치 정보 제공형태소 분석 결과 중 명사 추출 기능 제공형태소 분석 결과를 plain text로 제공training 모듈 추가 (직접 training/tuning 하실 수 있습니다!!!!) gradle 적용wiki title을 사전에 적용 기존의 자료 구조를 trie에서 aho-corasick으로 변경하여 속도를 개선하였습니다. (aho-corasick을 찾는데까지 오래 걸림...ㅠㅠ)또한 lucen..

Legacy/Library 2016.05.12

KOMORAN 2.x 라이센스 변경 공지

자바 형태소 분석기 KOMORAN-2.0을 Apache License 2.0으로 공개합니다.개발실력이 미천하여 이번에도 부끄러운 마음을 갖고 공개하였습니다. 많은 채찍질과 도움으로 자연어처리 비전공자분들도 다양하게 활용할 수 있기를 희망합니다. 아래 링크에서 소스코드를 다운 받으실 수 있습니다.https://github.com/shineware/komoran-2.0 왜 갑자기 공개하나요?- 저는 이제 3.0을 만들겁니다....?! 응?!?! 이제 개발실력이 다 들통났으니 어떻게 먹고 사실건가요?- 사실 저도 걱정입니다. 대단한 알고리즘이 들어간것도 아니고 그렇다고 소스를 기가 막히게 짜놓은 것도 아닌데.. 이렇게 공개해버리면 제 실력만 들통나서..하.... 사실 대단한걸 오픈한건 아닙니다만, 제 개인적으..

Legacy/Library 2014.12.08

KOMORAN ver 2.4 (자바 한국어 형태소 분석기)

KOMORAN 2.4manual library shineware-common-2.0.jar shineware-ds-1.0.jar data file 주요 업데이트 내용불규칙 사전 정제형태소 분석 시 n-best 분석 결과 제공 기능 추가sample codeString in = "바람과 함께 사라지다를 봤어.";int nbest = 2; List analyzeNbestResult = komoran.analyze(in,nbest);분석 결과best 1바람과 함께 사라지다/NNP+를/JKO보/VV+았/EP+어/EF+./SFbest 2바람과 함께 사라지다/NNP+를/JKO보/VX+았/EP+어/EF+./SF기타어절 단위 n-best 형태소 분석은 분석 대상 문장을 공백 단위로 tokenize하여 어절 단위로 입력불..

Legacy/Library 2014.11.24

EN-POSTA ver 0.5 (자바 영어 형태소 분석기)

자바로 만든 영어 형태소 분석기를 공개합니다. 이름은 EN-POSTA (ENglish POS TAgger) 입니다. 자체 동작 테스트는 완료하였습니다. 아직 안정화 단계에 접어들기 위해선 많은 피드백들이 반영되어야 할 것으로 보입니다. 사용하시다가 불편하신 점이나 이상하다고 느껴지시는 부분에 대해서 알려주시면 바로 반영할 수 있도록 하겠습니다. librarydata file 기본적인 사용법은 아래와 같습니다. public static void main(String[] args) throws Exception { EnPosta posta = new EnPosta(); posta.load("model"); //사용자 사전 추가 posta.appendUserDic("dic.user"); posta.buildF..

Legacy/Library 2014.11.06

KOMORAN ver 2.3 (자바 한국어 형태소 분석기)

KOMORAN 2.3manual library data file 주요 업데이트 내용불규칙 사전 정제models-full에 포함된 단어 중 오분석을 유발할 수 있는 단어 정제 버전 히스토리[2.2]불용 로그 제거공백 미포함 형태소 분석 기능 추가[2.1.2]사용자 환경에 따른 용량별 데이터 제공조사 결합 규칙 적용연결 어미 품사 확장기타 버그 수정[2.1.1]연속된 영어(SL), 숫자(SN), 한자(SH)에 대한 분석 결과 변경버그 수정 및 안정화[2.1]형태소 분석기 안정화 및 속도 개선[2.0.4]띄어쓰기 관련 버그 및 기타 안정화[2.0.3]사용자 사전 포맷 오류 수정[2.0.1]분석 중 에러가 발생하는 치명적 오류 수정[2.0.0]komoran 2.0 beta 최초 공개[2.0.0] 미만링크 참조 ..

Legacy/Library 2014.09.29

KOMORAN ver 2.2 (자바 한국어 형태소 분석기)

KOMORAN 2.2librarydata file (기존 2.1.2 버전과 동일)models-light.zipmodels-full.zip 주요 업데이트 내용일부 문장 분석 시 특정 로그가 출력되는 현상 제거형태소 분석 시 공백 포함/미포함 분석 기능 추가공백 포함 분석(2.2 이전 버전과 동일한 메소드 사용)sample codeString in="바람과 함께 사라지다를 봤어."; List analyzeResultList = komoran.analyze(in);분석 결과바람과 함께 사라지다/NNP+를/JKO보/VV+았/EP+어/EF+./SF공백 미포함 분석(2.2 버전 신규 메소드)sample codeString in="바람과 함께 사라지다를 봤어."; List analyzeResultList = komo..

Legacy/Library 2014.09.12

KOMORAN ver 2.1.2 (자바 한국어 형태소 분석기)

KOMORAN 2.1.2library shineware-common-2.0.jar shineware-ds-1.0.jardata file 주요 업데이트 내용사용자 환경에 따른 용량별 데이터 모델 제공models-light순수 학습 코퍼스만 사용기존 버전의 데이터들과 같은 내용models-full위키피디아의 제목(타이틀)을 추가 학습최소 메모리 1G 이상 필요일부 특수 문자 NA로 태깅되는 문제 수정조사 결합 규칙 적용한글 특성에 따라 부적절한 조사가 오는 경우는 후보에서 제외ver. 2.1.1 : 그을 -> 그/NP+을/JKO (대명사 + 목적격조사)ver. 2.1.2 : 그을 -> 그을/VV(동사)연결 어미 품사 확장학습 코퍼스 부족으로 인해 연결 어미(EC)만 존재하고 종결 어미(EF)가 존재하지 않는..

Legacy/Library 2014.08.26

KOMORAN ver 2.1.1 (자바 한국어 형태소 분석기)

KOMORAN 2.1.1library data file 주요 업데이트 내용연속된 영어(SL), 숫자(SN), 한자(SH)에 대한 분석 결과 변경input : DATEver 2.1의 분석 결과 : D/SL+A/SL+T/SL+E/SLver 2.1.1의 분석 결과 : DATE/SL일부 어절에 대해서 NA로 태깅되던 버그 수정품사 태거 동작 시 사용되는 score 변경데이터 정제로 인한 확률 모델 변경일부 부적절한 사전/품사 정보 제거 ( ㅂ/NNG, ㅑ/NNG 등)기타 조잡한 버그 수정 및 코드 정리 버전 히스토리[2.1]형태소 분석기 안정화 및 속도 개선[2.0.4]띄어쓰기 관련 버그 및 기타 안정화[2.0.3]사용자 사전 포맷 오류 수정[2.0.1]분석 중 에러가 발생하는 치명적 오류 수정[2.0.0]ko..

Legacy/Library 2014.08.18

KOMORAN ver 2.1 (자바 한국어 형태소 분석기)

KOMORAN 2.1library data file 주요 업데이트 내용형태소 분석기 안정화 및 속도 개선버전 히스토리[2.0.4]띄어쓰기 관련 버그 및 기타 안정화[2.0.3]사용자 사전 포맷 오류 수정[2.0.2]띄어쓰기 관련 오류 수정[2.0.1]분석 중 에러가 발생하는 치명적 오류 수정[2.0.0]komoran 2.0 beta 최초 공개[2.0.0 미만]링크 참조 - history 자세한 사용법은 하기 링크를 참조하시기 바랍니다.- 사용법 (글 제목 : KOMORAN ver 2.0.4 beta (자바 한국어 형태소 분석기))

Legacy/Library 2014.08.11