분류 전체보기 46

KOMORAN ver 2.1 (자바 한국어 형태소 분석기)

KOMORAN 2.1library data file 주요 업데이트 내용형태소 분석기 안정화 및 속도 개선버전 히스토리[2.0.4]띄어쓰기 관련 버그 및 기타 안정화[2.0.3]사용자 사전 포맷 오류 수정[2.0.2]띄어쓰기 관련 오류 수정[2.0.1]분석 중 에러가 발생하는 치명적 오류 수정[2.0.0]komoran 2.0 beta 최초 공개[2.0.0 미만]링크 참조 - history 자세한 사용법은 하기 링크를 참조하시기 바랍니다.- 사용법 (글 제목 : KOMORAN ver 2.0.4 beta (자바 한국어 형태소 분석기))

Legacy/Library 2014.08.11

KOMORAN ver 2.0.4 beta (자바 한국어 형태소 분석기)

1. KOMORAN 2.0 KOMORAN 2.0은 SHINEWARE에서 제작한 한국어 형태소 분석기로서 자바 라이브러리 형태(.jar)로 제공됩니다. 기존 KOMORAN 1.0 대비 속도, 정확률(accuracy)이 개선되었으며, 사용자 사전에 의해 추가된 내용은 여러 어절이 하나의 품사로 분석이 가능하도록 설계되었습니다. 2. KOMORAN 2.0 특징 KOMORAN 2.0은 1.0과 마찬가지로 자소 단위, 확률 기반의 형태소 분석기 입니다. 속도, 성능, 사전 관리 측면에서 기존 형태소 분석기와 차별되는 특징은 아래와 같습니다. 또한 기존 형태소 분석기와 달리 여러 어절을 하나의 품사로 분석 가능함으로써 형태소 분석기의 적용 도메인에 따라 공백이 포함된 고유명사(영화 제목, 음식점명, 노래 제목 등)..

Legacy/Library 2014.08.05

KOMORAN 2.0 beta

안녕하세요. 거의 1년만에 공개 포스팅을 작성합니다. 다름이 아니라 내부적으로 계속 KOMORAN에 대해서 업데이트를 진행 중에 있었으며, 이제 그에 따른 결과물을 다시 한번 공유하고자 이렇게 글을 작성합니다. 1.x 버전과 마찬가지로 이번 버전도 많은 분들의 피드백과 도움이 있어야 더 좋은 형태소 분석기로써의 면모를 갖출 수 있을 것 같습니다. 먼저 속도, 정확률 측면에서 성능이 좋아졌으며 부가적으로 아래와 같이 공백이 포함된 고유명사를 분석할 수 있는 기능이 추가되었습니다. 입력 문장 : 바람과 함께 사라지다를 봤습니다.사용자 사전 : 바람과 함께 사라지다/NNP분석 결과바람과 함께 사라디자/NNP+를/JKO보/VV+았/EP+습니다/EF+./SF 위와 같은 기능을 추가한 이유는 기존의 어절 단위로 분..

Legacy/Library 2014.07.21

KOMORAN ver 1.12 (자바 한글 형태소 분석기)

komoran 1.2(예정)검색 엔진을 위한 색인기 추가기존 어절 단위 형태소 분석기 외에 문장 단위 형태소 분석기 추가 komoran1.12-core library -required library shineware-common-lib-1.0.jar -required datas [version 1.12 history]score 계산시 발생하던 버그 수정.- 정확률 향상n 기호 및 숫자 등을 제외한 순수 한글 어절 ( 약 17만 어절, 33만 형태소 )u 어절 정확률 : 92.55% -> 93.04%u 형태소 별 품사 정확률 : 94.97% -> 95.39%n 기호 및 숫자 등을 포함한 전체 어절 ( 약 20만 어절, 46만 형태소 )u 어절 정확률 : 84.36% -> 84.80%u 형태소 별 품사 정확..

Legacy/Library 2013.06.19

KOMORAN ver 1.1 (자바 한글 형태소 분석기)

komoran 1.2(예정)검색 엔진을 위한 색인기 추가기존 어절 단위 형태소 분석기 외에 문장 단위 형태소 분석기 추가 komoran 1.1-core library-required library-required data files 고유 명사 약 50만 단어 추가.- 웹으로 수집 가능한 고유명사 추가- 한글 위키피디아에 수록된 단어 목록 추가기타 불규칙 변환 관련된 버그 수정.사전 추가에 따라 최소 1G 이상의 메모리를 필요로 합니다. (-Xmx1G)사용법은 1.0 버전 참조. komoran 1.0http://shineware.tistory.com/entry/KOMORAN-10

Legacy/Library 2013.06.08

KOMORAN ver 1.0 (자바 한글 형태소 분석기)

1. KOMORAN? KOMORAN은 SHINEWARE SOFT에서 제작한 한국어 형태소 분석기로서 자바 라이브러리 형태(.jar)로 제공됩니다. KOMORAN은 기존 형태소 분석기의 연구 결과들을 바탕으로 하여 ‘속도’, ‘성능’, ‘사전 관리 비용’에서 가장 우수한 성능을 낼 수 있도록 설계되었습니다. 2. KOMORAM 특징 KOMORAN은 자소 단위, 확률 기반의 형태소 분석기 입니다. 속도, 성능, 사전 관리 측면에서 기존 형태소 분석기와 차별되는 특징은 아래와 같습니다. - 속도 n Hash 기반의 파싱 방법을 적용하여 한글 분석 속도 향상 n TRIE 기반의 사전 구성으로 사전 재탐색 횟수를 최소화하여 사전 탐색 속도 향상 n KOMORAN 내부의 자료형(Data Type)을 대부분 정수(I..

Legacy/Library 2013.05.18

XML을 String으로 변환. ( XML to String )

아마 대부분의 공개 api는 json이나 xml 형태를 지원할 것입니다. Open api를 이용하여 재밌는 것 좀 해볼까해서 XML 파서를 이용하기로 했습니다. 먼저 DocumentBuilder를 사용하여 XML을 Document 형태로 가져왔습니다.잘 가져왔나 내용을 확인하기 위해서 그냥 Document Object를 출력해봤습니다. Document doc = xxxxxxxxx; System.out.println(doc); 그랬더니 원했던 결과가 나오지 않습니다. 구글링을 한 결과 아래와 같은 방법으로 XML 형태의 Document를 String으로 변환 할 수 있었습니다. TransformerFactory tf = TransformerFactory.newInstance(); Transformer tr..

Legacy/Java 2013.04.26