To. Me

KOMORAN 3.0 beta

KOMORAN 3.0에 대한 안정성 및 피드백을 받기 위해서 베타 버전을 공개합니다. 2.0 대비 주요 변화는 아래와 같습니다. 속도 개선KOMORAN 2.0 : 초당 0.4MB 분석 (MB/sec)KOMORAN 3.0 : 초당 1.0MB 분석 (MB/sec)기능 추가형태소 분석 결과로 입력 문장 내 형태소 위치 정보 제공형태소 분석 결과 중 명사 추출 기능 제공형태소 분석 결과를 plain text로 제공training 모듈 추가 (직접 training/tuning 하실 수 있습니다!!!!) gradle 적용wiki title을 사전에 적용 기존의 자료 구조를 trie에서 aho-corasick으로 변경하여 속도를 개선하였습니다. (aho-corasick을 찾는데까지 오래 걸림...ㅠㅠ)또한 lucen..

Legacy/Library 2016.05.12

KOMORAN ver 2.4 for python3

한국어 형태소 분석기 KOMORAN 2.4의 파이썬 버전을 릴리즈 하였습니다. Jpype를 이용하여 기존 komoran 라이브러리들을 python3에서 사용할 수 있습니다. 소스 코드는 아래 url에서 확인하실 수 있습니다. https://github.com/shineware/komoranPy_2.0

Legacy/Library 2014.12.26

KOMORAN 2.x 라이센스 변경 공지

자바 형태소 분석기 KOMORAN-2.0을 Apache License 2.0으로 공개합니다.개발실력이 미천하여 이번에도 부끄러운 마음을 갖고 공개하였습니다. 많은 채찍질과 도움으로 자연어처리 비전공자분들도 다양하게 활용할 수 있기를 희망합니다. 아래 링크에서 소스코드를 다운 받으실 수 있습니다.https://github.com/shineware/komoran-2.0 왜 갑자기 공개하나요?- 저는 이제 3.0을 만들겁니다....?! 응?!?! 이제 개발실력이 다 들통났으니 어떻게 먹고 사실건가요?- 사실 저도 걱정입니다. 대단한 알고리즘이 들어간것도 아니고 그렇다고 소스를 기가 막히게 짜놓은 것도 아닌데.. 이렇게 공개해버리면 제 실력만 들통나서..하.... 사실 대단한걸 오픈한건 아닙니다만, 제 개인적으..

Legacy/Library 2014.12.08

KOMORAN ver 2.4 (자바 한국어 형태소 분석기)

KOMORAN 2.4manual library shineware-common-2.0.jar shineware-ds-1.0.jar data file 주요 업데이트 내용불규칙 사전 정제형태소 분석 시 n-best 분석 결과 제공 기능 추가sample codeString in = "바람과 함께 사라지다를 봤어.";int nbest = 2; List analyzeNbestResult = komoran.analyze(in,nbest);분석 결과best 1바람과 함께 사라지다/NNP+를/JKO보/VV+았/EP+어/EF+./SFbest 2바람과 함께 사라지다/NNP+를/JKO보/VX+았/EP+어/EF+./SF기타어절 단위 n-best 형태소 분석은 분석 대상 문장을 공백 단위로 tokenize하여 어절 단위로 입력불..

Legacy/Library 2014.11.24

자바 HMM 라이브러리 소스 공개

약 2년전 HMM 라이브러리를 공개한 적이 있습니다. 2년이 지난 지금도 많은 분들이 관련 내용에 대해서 문의를 주십니다. 또한 소스 요청도 종종 받고 있습니다. 이름, 소속 및 사용 용도를 메일로 보내주신 분에 한하여 소스를 드렸습니다. 2년이라는 시간이 흘렀지만 보잘것 없는 라이브러리를 지금도 찾아주셔서 감사하기도 하고 한편으로는 저 자신에게 부끄럽기도 합니다. 용기를 내어서 소스를 공개하고자 합니다. 사용법은 소스 내에 있는 toy example을 참고하시면 될 것 같습니다. 또한 아래 페이지에서도 다운로드 가능합니다. git : https://github.com/shin285/HMM 나름대로 안정화를 많이 시켰지만 부족한 부분이 많이 있습니다. 이와 관련하여 피드백을 주시면 반영하도록 하겠습니다...

Legacy/Shineware 2014.11.13

EN-POSTA ver 0.5 (자바 영어 형태소 분석기)

자바로 만든 영어 형태소 분석기를 공개합니다. 이름은 EN-POSTA (ENglish POS TAgger) 입니다. 자체 동작 테스트는 완료하였습니다. 아직 안정화 단계에 접어들기 위해선 많은 피드백들이 반영되어야 할 것으로 보입니다. 사용하시다가 불편하신 점이나 이상하다고 느껴지시는 부분에 대해서 알려주시면 바로 반영할 수 있도록 하겠습니다. librarydata file 기본적인 사용법은 아래와 같습니다. public static void main(String[] args) throws Exception { EnPosta posta = new EnPosta(); posta.load("model"); //사용자 사전 추가 posta.appendUserDic("dic.user"); posta.buildF..

Legacy/Library 2014.11.06

KOMORAN ver 2.3 (자바 한국어 형태소 분석기)

KOMORAN 2.3manual library data file 주요 업데이트 내용불규칙 사전 정제models-full에 포함된 단어 중 오분석을 유발할 수 있는 단어 정제 버전 히스토리[2.2]불용 로그 제거공백 미포함 형태소 분석 기능 추가[2.1.2]사용자 환경에 따른 용량별 데이터 제공조사 결합 규칙 적용연결 어미 품사 확장기타 버그 수정[2.1.1]연속된 영어(SL), 숫자(SN), 한자(SH)에 대한 분석 결과 변경버그 수정 및 안정화[2.1]형태소 분석기 안정화 및 속도 개선[2.0.4]띄어쓰기 관련 버그 및 기타 안정화[2.0.3]사용자 사전 포맷 오류 수정[2.0.1]분석 중 에러가 발생하는 치명적 오류 수정[2.0.0]komoran 2.0 beta 최초 공개[2.0.0] 미만링크 참조 ..

Legacy/Library 2014.09.29

KOMORAN ver 2.2 (자바 한국어 형태소 분석기)

KOMORAN 2.2librarydata file (기존 2.1.2 버전과 동일)models-light.zipmodels-full.zip 주요 업데이트 내용일부 문장 분석 시 특정 로그가 출력되는 현상 제거형태소 분석 시 공백 포함/미포함 분석 기능 추가공백 포함 분석(2.2 이전 버전과 동일한 메소드 사용)sample codeString in="바람과 함께 사라지다를 봤어."; List analyzeResultList = komoran.analyze(in);분석 결과바람과 함께 사라지다/NNP+를/JKO보/VV+았/EP+어/EF+./SF공백 미포함 분석(2.2 버전 신규 메소드)sample codeString in="바람과 함께 사라지다를 봤어."; List analyzeResultList = komo..

Legacy/Library 2014.09.12

KOMORAN ver 2.1.2 (자바 한국어 형태소 분석기)

KOMORAN 2.1.2library shineware-common-2.0.jar shineware-ds-1.0.jardata file 주요 업데이트 내용사용자 환경에 따른 용량별 데이터 모델 제공models-light순수 학습 코퍼스만 사용기존 버전의 데이터들과 같은 내용models-full위키피디아의 제목(타이틀)을 추가 학습최소 메모리 1G 이상 필요일부 특수 문자 NA로 태깅되는 문제 수정조사 결합 규칙 적용한글 특성에 따라 부적절한 조사가 오는 경우는 후보에서 제외ver. 2.1.1 : 그을 -> 그/NP+을/JKO (대명사 + 목적격조사)ver. 2.1.2 : 그을 -> 그을/VV(동사)연결 어미 품사 확장학습 코퍼스 부족으로 인해 연결 어미(EC)만 존재하고 종결 어미(EF)가 존재하지 않는..

Legacy/Library 2014.08.26

KOMORAN ver 2.1.1 (자바 한국어 형태소 분석기)

KOMORAN 2.1.1library data file 주요 업데이트 내용연속된 영어(SL), 숫자(SN), 한자(SH)에 대한 분석 결과 변경input : DATEver 2.1의 분석 결과 : D/SL+A/SL+T/SL+E/SLver 2.1.1의 분석 결과 : DATE/SL일부 어절에 대해서 NA로 태깅되던 버그 수정품사 태거 동작 시 사용되는 score 변경데이터 정제로 인한 확률 모델 변경일부 부적절한 사전/품사 정보 제거 ( ㅂ/NNG, ㅑ/NNG 등)기타 조잡한 버그 수정 및 코드 정리 버전 히스토리[2.1]형태소 분석기 안정화 및 속도 개선[2.0.4]띄어쓰기 관련 버그 및 기타 안정화[2.0.3]사용자 사전 포맷 오류 수정[2.0.1]분석 중 에러가 발생하는 치명적 오류 수정[2.0.0]ko..

Legacy/Library 2014.08.18

To. Me

전체 글 46

티스토리툴바

« 2024/04 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30