자연어처리 18

KOMORAN 3.0 beta

KOMORAN 3.0에 대한 안정성 및 피드백을 받기 위해서 베타 버전을 공개합니다. 2.0 대비 주요 변화는 아래와 같습니다. 속도 개선KOMORAN 2.0 : 초당 0.4MB 분석 (MB/sec)KOMORAN 3.0 : 초당 1.0MB 분석 (MB/sec)기능 추가형태소 분석 결과로 입력 문장 내 형태소 위치 정보 제공형태소 분석 결과 중 명사 추출 기능 제공형태소 분석 결과를 plain text로 제공training 모듈 추가 (직접 training/tuning 하실 수 있습니다!!!!) gradle 적용wiki title을 사전에 적용 기존의 자료 구조를 trie에서 aho-corasick으로 변경하여 속도를 개선하였습니다. (aho-corasick을 찾는데까지 오래 걸림...ㅠㅠ)또한 lucen..

Legacy/Library 2016.05.12

KOMORAN ver 2.4 (자바 한국어 형태소 분석기)

KOMORAN 2.4manual library shineware-common-2.0.jar shineware-ds-1.0.jar data file 주요 업데이트 내용불규칙 사전 정제형태소 분석 시 n-best 분석 결과 제공 기능 추가sample codeString in = "바람과 함께 사라지다를 봤어.";int nbest = 2; List analyzeNbestResult = komoran.analyze(in,nbest);분석 결과best 1바람과 함께 사라지다/NNP+를/JKO보/VV+았/EP+어/EF+./SFbest 2바람과 함께 사라지다/NNP+를/JKO보/VX+았/EP+어/EF+./SF기타어절 단위 n-best 형태소 분석은 분석 대상 문장을 공백 단위로 tokenize하여 어절 단위로 입력불..

Legacy/Library 2014.11.24

EN-POSTA ver 0.5 (자바 영어 형태소 분석기)

자바로 만든 영어 형태소 분석기를 공개합니다. 이름은 EN-POSTA (ENglish POS TAgger) 입니다. 자체 동작 테스트는 완료하였습니다. 아직 안정화 단계에 접어들기 위해선 많은 피드백들이 반영되어야 할 것으로 보입니다. 사용하시다가 불편하신 점이나 이상하다고 느껴지시는 부분에 대해서 알려주시면 바로 반영할 수 있도록 하겠습니다. librarydata file 기본적인 사용법은 아래와 같습니다. public static void main(String[] args) throws Exception { EnPosta posta = new EnPosta(); posta.load("model"); //사용자 사전 추가 posta.appendUserDic("dic.user"); posta.buildF..

Legacy/Library 2014.11.06

KOMORAN ver 2.3 (자바 한국어 형태소 분석기)

KOMORAN 2.3manual library data file 주요 업데이트 내용불규칙 사전 정제models-full에 포함된 단어 중 오분석을 유발할 수 있는 단어 정제 버전 히스토리[2.2]불용 로그 제거공백 미포함 형태소 분석 기능 추가[2.1.2]사용자 환경에 따른 용량별 데이터 제공조사 결합 규칙 적용연결 어미 품사 확장기타 버그 수정[2.1.1]연속된 영어(SL), 숫자(SN), 한자(SH)에 대한 분석 결과 변경버그 수정 및 안정화[2.1]형태소 분석기 안정화 및 속도 개선[2.0.4]띄어쓰기 관련 버그 및 기타 안정화[2.0.3]사용자 사전 포맷 오류 수정[2.0.1]분석 중 에러가 발생하는 치명적 오류 수정[2.0.0]komoran 2.0 beta 최초 공개[2.0.0] 미만링크 참조 ..

Legacy/Library 2014.09.29

KOMORAN ver 2.2 (자바 한국어 형태소 분석기)

KOMORAN 2.2librarydata file (기존 2.1.2 버전과 동일)models-light.zipmodels-full.zip 주요 업데이트 내용일부 문장 분석 시 특정 로그가 출력되는 현상 제거형태소 분석 시 공백 포함/미포함 분석 기능 추가공백 포함 분석(2.2 이전 버전과 동일한 메소드 사용)sample codeString in="바람과 함께 사라지다를 봤어."; List analyzeResultList = komoran.analyze(in);분석 결과바람과 함께 사라지다/NNP+를/JKO보/VV+았/EP+어/EF+./SF공백 미포함 분석(2.2 버전 신규 메소드)sample codeString in="바람과 함께 사라지다를 봤어."; List analyzeResultList = komo..

Legacy/Library 2014.09.12

KOMORAN ver 2.1.2 (자바 한국어 형태소 분석기)

KOMORAN 2.1.2library shineware-common-2.0.jar shineware-ds-1.0.jardata file 주요 업데이트 내용사용자 환경에 따른 용량별 데이터 모델 제공models-light순수 학습 코퍼스만 사용기존 버전의 데이터들과 같은 내용models-full위키피디아의 제목(타이틀)을 추가 학습최소 메모리 1G 이상 필요일부 특수 문자 NA로 태깅되는 문제 수정조사 결합 규칙 적용한글 특성에 따라 부적절한 조사가 오는 경우는 후보에서 제외ver. 2.1.1 : 그을 -> 그/NP+을/JKO (대명사 + 목적격조사)ver. 2.1.2 : 그을 -> 그을/VV(동사)연결 어미 품사 확장학습 코퍼스 부족으로 인해 연결 어미(EC)만 존재하고 종결 어미(EF)가 존재하지 않는..

Legacy/Library 2014.08.26

KOMORAN ver 2.1.1 (자바 한국어 형태소 분석기)

KOMORAN 2.1.1library data file 주요 업데이트 내용연속된 영어(SL), 숫자(SN), 한자(SH)에 대한 분석 결과 변경input : DATEver 2.1의 분석 결과 : D/SL+A/SL+T/SL+E/SLver 2.1.1의 분석 결과 : DATE/SL일부 어절에 대해서 NA로 태깅되던 버그 수정품사 태거 동작 시 사용되는 score 변경데이터 정제로 인한 확률 모델 변경일부 부적절한 사전/품사 정보 제거 ( ㅂ/NNG, ㅑ/NNG 등)기타 조잡한 버그 수정 및 코드 정리 버전 히스토리[2.1]형태소 분석기 안정화 및 속도 개선[2.0.4]띄어쓰기 관련 버그 및 기타 안정화[2.0.3]사용자 사전 포맷 오류 수정[2.0.1]분석 중 에러가 발생하는 치명적 오류 수정[2.0.0]ko..

Legacy/Library 2014.08.18

KOMORAN ver 2.1 (자바 한국어 형태소 분석기)

KOMORAN 2.1library data file 주요 업데이트 내용형태소 분석기 안정화 및 속도 개선버전 히스토리[2.0.4]띄어쓰기 관련 버그 및 기타 안정화[2.0.3]사용자 사전 포맷 오류 수정[2.0.2]띄어쓰기 관련 오류 수정[2.0.1]분석 중 에러가 발생하는 치명적 오류 수정[2.0.0]komoran 2.0 beta 최초 공개[2.0.0 미만]링크 참조 - history 자세한 사용법은 하기 링크를 참조하시기 바랍니다.- 사용법 (글 제목 : KOMORAN ver 2.0.4 beta (자바 한국어 형태소 분석기))

Legacy/Library 2014.08.11

KOMORAN ver 2.0.4 beta (자바 한국어 형태소 분석기)

1. KOMORAN 2.0 KOMORAN 2.0은 SHINEWARE에서 제작한 한국어 형태소 분석기로서 자바 라이브러리 형태(.jar)로 제공됩니다. 기존 KOMORAN 1.0 대비 속도, 정확률(accuracy)이 개선되었으며, 사용자 사전에 의해 추가된 내용은 여러 어절이 하나의 품사로 분석이 가능하도록 설계되었습니다. 2. KOMORAN 2.0 특징 KOMORAN 2.0은 1.0과 마찬가지로 자소 단위, 확률 기반의 형태소 분석기 입니다. 속도, 성능, 사전 관리 측면에서 기존 형태소 분석기와 차별되는 특징은 아래와 같습니다. 또한 기존 형태소 분석기와 달리 여러 어절을 하나의 품사로 분석 가능함으로써 형태소 분석기의 적용 도메인에 따라 공백이 포함된 고유명사(영화 제목, 음식점명, 노래 제목 등)..

Legacy/Library 2014.08.05