Legacy/Library

KOMORAN ver 2.4 (자바 한국어 형태소 분석기)

shine_ing 2014. 11. 24. 02:49

KOMORAN 2.4




  • 주요 업데이트 내용
    • 불규칙 사전 정제
    • 형태소 분석 시 n-best 분석 결과 제공 기능 추가
      • sample code
        • String in = "바람과 함께 사라지다를 봤어.";

          int nbest = 2;

          List<List<List<Pair<String,String>>>> analyzeNbestResult = komoran.analyze(in,nbest);

      • 분석 결과
        • best 1
          • 바람과 함께 사라지다/NNP+/JKO

            /VV+/EP+/EF+./SF

        • best 2
          • 바람과 함께 사라지다/NNP+/JKO

            /VX+/EP+/EF+./SF

      • 기타
        • 어절 단위 n-best 형태소 분석은 분석 대상 문장을 공백 단위로 tokenize하여 어절 단위로 입력
    • 불규칙 사전 빌드 및 처리 방식 변경에 따른 성능 개선
      • 기호 및 숫자 등을 제외한 순수 한글 어절
        • 어절 정확률 : 93.37% -> 93.60%
        • 형태소 별 품사 정확률 : 95.62% -> 95.88%
      • 기호 및 숫자 등을 포함한 전체 어절
        • 어절 정확률 : 91.59% -> 92.12%
        • 형태소 별 품사 정확률 : 95.06% -> 95.36%

  • 버전 히스토리
    • [2.3]
      • 학습 데이터 정제
    • [2.2]
      • 불용 로그 제거
      • 공백 미포함 형태소 분석 기능 추가
    • [2.1.2]
      • 사용자 환경에 따른 용량별 데이터 제공
      • 조사 결합 규칙 적용
      • 연결 어미 품사 확장
      • 기타 버그 수정
    • [2.1.1]
      • 연속된 영어(SL), 숫자(SN), 한자(SH)에 대한 분석 결과 변경
      • 버그 수정 및 안정화
    • [2.1]
      • 형태소 분석기 안정화 및 속도 개선
    • [2.0.4]
      • 띄어쓰기 관련 버그 및 기타 안정화
    • [2.0.3]
      • 사용자 사전 포맷 오류 수정
    • [2.0.1]
      • 분석 중 에러가 발생하는 치명적 오류 수정
    • [2.0.0]
      • komoran 2.0 beta 최초 공개
    • [2.0.0] 미만

    자세한 사용법은 하기 링크 또는 첨부된 메뉴얼을 참조하시기 바랍니다.

    사용법 (글 제목 : KOMORAN ver 2.0.4 beta (자바 한국어 형태소 분석기))

    데모 사이트