NLP 7

KOMORAN 3.0 beta

KOMORAN 3.0에 대한 안정성 및 피드백을 받기 위해서 베타 버전을 공개합니다. 2.0 대비 주요 변화는 아래와 같습니다. 속도 개선KOMORAN 2.0 : 초당 0.4MB 분석 (MB/sec)KOMORAN 3.0 : 초당 1.0MB 분석 (MB/sec)기능 추가형태소 분석 결과로 입력 문장 내 형태소 위치 정보 제공형태소 분석 결과 중 명사 추출 기능 제공형태소 분석 결과를 plain text로 제공training 모듈 추가 (직접 training/tuning 하실 수 있습니다!!!!) gradle 적용wiki title을 사전에 적용 기존의 자료 구조를 trie에서 aho-corasick으로 변경하여 속도를 개선하였습니다. (aho-corasick을 찾는데까지 오래 걸림...ㅠㅠ)또한 lucen..

Legacy/Library 2016.05.12

KOMORAN 2.0 beta

안녕하세요. 거의 1년만에 공개 포스팅을 작성합니다. 다름이 아니라 내부적으로 계속 KOMORAN에 대해서 업데이트를 진행 중에 있었으며, 이제 그에 따른 결과물을 다시 한번 공유하고자 이렇게 글을 작성합니다. 1.x 버전과 마찬가지로 이번 버전도 많은 분들의 피드백과 도움이 있어야 더 좋은 형태소 분석기로써의 면모를 갖출 수 있을 것 같습니다. 먼저 속도, 정확률 측면에서 성능이 좋아졌으며 부가적으로 아래와 같이 공백이 포함된 고유명사를 분석할 수 있는 기능이 추가되었습니다. 입력 문장 : 바람과 함께 사라지다를 봤습니다.사용자 사전 : 바람과 함께 사라지다/NNP분석 결과바람과 함께 사라디자/NNP+를/JKO보/VV+았/EP+습니다/EF+./SF 위와 같은 기능을 추가한 이유는 기존의 어절 단위로 분..

Legacy/Library 2014.07.21

KOMORAN ver 0.6 (자바 한글 형태소 분석기)

한글 형태소 분석기 KOMORAN 0.6 버전을 공개합니다. 네이밍과 관련하여 몇몇 분의 문의를 주셨는데, KOMORAN은 KOrean MORphological ANalyzer의 약자입니다. 버전업 주요 히스토리 ver 0.6 - 기존 0.5 버전 ( 링크 )에 기분석 사전을 추가하였습니다.- 기분석 사전 추가로 인해 분석 속도가 2배 가량 빨라졌습니다. (sec 당 200kb 분석)- VM는 최소 512mb를 필요로 합니다. ( -Xms512m -Xmx512m ) 형태소 분석 Core 라이브러리 파일 형태소 분석 라이브러리 내 사용되는 유틸성 라이브러리필요 라이브러리 파일 사용법은 ver 0.5와 같습니다. ( 링크 ) 본 형태소 분석기는 상업적 용도의 사용을 금지합니다. (안정성 검증 필요, 별도 연..

Legacy/Library 2013.04.02

KOMORAN ver 0.5 (자바 한글 형태소 분석기)

자바로 만든 한글 형태소 분석기를 공개합니다. 이름은 KOMORAN입니다. 현재 자체 테스트는 완료하였습니다. 기본적인 어절 단위 형태소 분석기를 따르고 있습니다. (sec 당 약 100kb 분석) 사용 중 발생하는 에러는 댓글로 부탁드립니다. 필요한 라이브러리 파일은 아래와 같습니다.형태소 분석 core 라이브러리 형태소 분석 라이브러리 내 사용된 유틸성 라이브러리 분석에 필요한 모델 파일들은 아래와 같습니다. 사용법은 아래와 같습니다. public static void main(String[] args) { MorphologyAnalyzer analyzer = new MorphologyAnalyzer("형태소 분석용 파일들이 저장된 루트 폴더"); Listreslut = analyzer.analyze..

Legacy/Library 2013.03.19

accuracy, precision, recall의 차이

자연어처리에 대한 공부를 하다보면 가장 많이 듣는 단어 중 하나는 feature이다. 그리고 항상 실험 부분에서 많이 나오는 단어는 위 제목과 같이 accuracy, precision, recall 이다. 특히 문서 분류나 검색에서 많이 사용되는 실험 척도인데, 주로 precision과 recall을 구한 뒤에 F-measure로 최종 결과를 내는 논문들이 많았다. 그리고 accuracy로 최종 결과를 내는 논문들 역시 많이 있었는데. 정확률? 재현률? 정밀도? 나 역시 많은 논문을 접하면서 쉽게 단어가 노출되어서 익히 들어왔지만 항상 그때그때 마다 헷갈리는 부분이다. 마치, 일란성 쌍둥이를 한참 들여다보고 나서야 누가 형이고, 동생인지 알 수 있는 것처럼 말이다. 이제 accuracy, precisio..

HMM (Hidden Markov Model)

컴퓨터 전공을 공부하다보면 HMM이라는 말을 자주 접하게 된다. 특히 자연어처리, 패턴인식과 같은 분야에서는 HMM에 대해서 수백번은 들어보게 된다. HMM은 위키피디아에 보면 정리가 잘 되어있다. (위키피디아 - HMM) 물론 한글로 정리를 잘 해놓으신 분도 계신다. (난다로 님의 블로그) HMM을 언제 써야하는지 왜 써야하는지는 위에 링크들을 참조하면 큰 도움을 얻을 수 있을 것이다. 필자는 블로그에서 상세히 설명 하고자 하는 것은 아니기 때문에(물론 할 능력도 안되지만..) 단순한 예를 들어서 HMM에 대한 핵심만 정리하도록 하자. 이전 사건에서 현재 사건이 올 수 있는 확률과, 현재 사건 자체가 일어날 확률을 연속적으로 계산하면 된다. 실질적인 예를 들어보자. 공대 사람이 오늘 하루를 돌아다니다가..