Legacy/Library

KOMORAN ver 2.1.2 (자바 한국어 형태소 분석기)

shine_ing 2014. 8. 26. 18:18

KOMORAN 2.1.2


    • 주요 업데이트 내용
      • 사용자 환경에 따른 용량별 데이터 모델 제공
        • models-light
          • 순수 학습 코퍼스만 사용
          • 기존 버전의 데이터들과 같은 내용
        • models-full
          • 위키피디아의 제목(타이틀)을 추가 학습
          • 최소 메모리 1G 이상 필요
      • 일부 특수 문자 NA로 태깅되는 문제 수정
      • 조사 결합 규칙 적용
        • 한글 특성에 따라 부적절한 조사가 오는 경우는 후보에서 제외
          • ver. 2.1.1 : 그을 -> 그/NP+을/JKO (대명사 + 목적격조사)
          • ver. 2.1.2 : 그을 -> 그을/VV(동사)
      • 연결 어미 품사 확장
        • 학습 코퍼스 부족으로 인해 연결 어미(EC)만 존재하고 종결 어미(EF)가 존재하지 않는 경우 종결 어미도 후보로 추가
          • ver 2.1.1 : 놔! -> 놔!/NA
          • ver 2.1.2 : 놔! -> 놓/VV+아/EF+!/SF
      • 성능 향상
        • 위 내용에 따른 전체적인 성능 향상
          • 기호 및 숫자 등을 제외한 순수 한글 어절
            • 어절 정확률 : 93.37% (변동 없음)
            • 형태소 별 품사 정확률 : 95.60% -> 95.62%
          • 기호 및 숫자 등을 포함한 전체 어절
            • 어절 정확률 : 91.40% -> 91.59%
            • 형태소 별 품사 정확률 : 94.60% -> 95.06%

    • 버전 히스토리
      • [2.1.1]
        • 연속된 영어(SL), 숫자(SN), 한자(SH)에 대한 분석 결과 변경
        • 버그 수정 및 안정화
      • [2.1]
        • 형태소 분석기 안정화 및 속도 개선
      • [2.0.4]
        • 띄어쓰기 관련 버그 및 기타 안정화
      • [2.0.3]
        • 사용자 사전 포맷 오류 수정
      • [2.0.1]
        • 분석 중 에러가 발생하는 치명적 오류 수정
      • [2.0.0]
        • komoran 2.0 beta 최초 공개
      • [2.0.0] 미만

자세한 사용법은 하기 링크를 참조하시기 바랍니다.

사용법 (글 제목 : KOMORAN ver 2.0.4 beta (자바 한국어 형태소 분석기))


KOMORAN과 관련된 문의 사항은 ceo@shineware.co.kr로 연락주시기 바랍니다.