Legacy/Library
KOMORAN 3.0 beta
KOMORAN 3.0에 대한 안정성 및 피드백을 받기 위해서 베타 버전을 공개합니다.
2.0 대비 주요 변화는 아래와 같습니다.
- 속도 개선
- KOMORAN 2.0 : 초당 0.4MB 분석 (MB/sec)
- KOMORAN 3.0 : 초당 1.0MB 분석 (MB/sec)
- 기능 추가
- 형태소 분석 결과로 입력 문장 내 형태소 위치 정보 제공
- 형태소 분석 결과 중 명사 추출 기능 제공
- 형태소 분석 결과를 plain text로 제공
- training 모듈 추가 (직접 training/tuning 하실 수 있습니다!!!!)
- gradle 적용
- wiki title을 사전에 적용
기존의 자료 구조를 trie에서 aho-corasick으로 변경하여 속도를 개선하였습니다. (aho-corasick을 찾는데까지 오래 걸림...ㅠㅠ)
또한 lucene 기반의 analyzer에서 쉽게 적용할 수 있도록 분석 결과 token의 position 정보를 제공합니다. (개선해야 될 부분이 많습니다...ㅠ)
아직 KOMORAN 2.0처럼 많이 부족합니다.
그러나 KOMORAN 2.0 처럼 많이 사용해주시고 많은 피드백을 주신다면 감사드리겠습니다. (_ _)
사용법 및 소스는 아래 링크에서 확인하실 수 있습니다.
https://github.com/shin285/KOMORAN
덧, 있어보이려고 github repository에 badge를 2개나 붙였으나....개발 능력 부족으로 인해 coverage가 매우 낮지만....동작에는 문제가 없습니다..ㅠㅠ
'Legacy > Library' 카테고리의 다른 글
KOMORAN 3.0 beta (32) | 2016.05.12 |
---|---|
KOMORAN ver 2.4 for python3 (8) | 2014.12.26 |
KOMORAN 2.x 라이센스 변경 공지 (42) | 2014.12.08 |
KOMORAN ver 2.4 (자바 한국어 형태소 분석기) (15) | 2014.11.24 |
EN-POSTA ver 0.5 (자바 영어 형태소 분석기) (9) | 2014.11.06 |
KOMORAN ver 2.3 (자바 한국어 형태소 분석기) (16) | 2014.09.29 |
Tag
'Legacy/Library'의 다른글
- 이전글KOMORAN ver 2.4 for python3
- 현재글KOMORAN 3.0 beta
관련글
-
코랄칼슘 2016.05.16 21:51
안녕하세요!! 코모란 잘 쓰고 있습니다.
답글
에러리포트요!
싸이/VV+는/ETM 가수/NNG+다/JX
가수 싸이는 항상 VV로 나오네요 ㅠㅠ -
-
개발개발 2016.08.13 18:23
"바이든 부통령, 포로셴코과 대통령과 크림 사태 논의 통화" 라는 String 값으로 돌리는데요 ㅠㅠ
답글
java.lang.NullPointerException 이 뜨네요...
바이든 부통령 이라는 단어 때문인거 같은데 해결법좀 알려주세요. ㅠ
그리고 그 포로셴코와 같은 단어는 명사 결과로 안나오는데 어떻게 해야하죠??
해보니 2.4버전에서는 되는데요 혹시 2.4버전에서 3.0버전의 analyzeResultList.getNouns() 같은게 있나요??
-
카일로 2016.10.04 04:07
안녕하세요.
답글
예전에 띄어쓰기 무시한 사전은 아직 3.0에 들어가지 않았나요?
예를들어
바람과 함께 사라지다 이거가 사용자 사전에 있을 경우
바람과함께사라지다
바람과 함께사라지다
바람과함께 사라지다
등등이 2.4에는 고유명사로 잘 분류 되었던것 같습니다. (제 착각일 수도 있어 보입니다만..) -
kwon 2016.12.08 17:47
komoran3.0 사용을 위해 테스트 하고 있습니다.
답글
동작은 잘 하는데 특정 글자에서 java.lang.NullPointerException 에러가 발생하고 있습니다.
테스트한 글자는 '센', '센트롤이' 두가지 이구요 '센트롤' 이라고 하면 에러없이 정상작동 합니다.
KomoranResult.java 에서 Second 에 셋팅되지 않아서 에러가 나는것 같습니다.
if(jasoBeginIdx >= syllableAreaList.get(i).getSecond()){
syllableAreaPair.setSecond(i+1);
}
좀 더 추척해봤지만 소스 전체를 다 이해하지 못해서 어떻게 수정해야할지를 모르겠습니다~~
도움 부탁드려요~ -
Freeman 2017.03.02 17:21
안녕하세요. 코모란을 잘 사용하고 있습니다.
답글
테스트로 Thread를 적용해 보니, 아래와 같은 오류가 발생하네요....
코모란 라이브러리 Thread 적용해서 수행이 가능한지 궁금합니다.....
java.util.ConcurrentModificationException
at java.util.HashMap$HashIterator.nextNode(HashMap.java:1429)
at java.util.HashMap$KeyIterator.next(HashMap.java:1453)
at kr.co.shineware.nlp.komoran.core.analyzer.Komoran.regularParsing(Komoran.java:641)
at kr.co.shineware.nlp.komoran.core.analyzer.Komoran.analyze(Komoran.java:295) -
hyon86 2017.03.24 15:28
안녕하세요. 코모란 3.0을 사용해 보고 있습니다.
답글
kr.co.shineware.nlp.komoran.core.Komoran.java
아래 메서드 여러 스레드에서 동시 접근 해도 문제가 없는지 문의 드립니다.
public KomoranResult analyze(String sentence) <= 해당 메서드가 thread safety 한지?
-
-
STEVE 2017.07.03 15:24
안녕하세요. 코모란3.0을 git에서 받아 코드 분석하면서 스터디 중입니다.
답글
빌드 하면서 코드를 하나씩 쫓아가다 보니 AhoCorasickDictionary<> 부분은 코드를 열어볼 수 없는데, 알고리즘 구현 후 별도로 관리되는 부분인지요?
그리고 models_full 리소스 안의 model 파일은 어떻게 만들어진 것인지 문의 드려도 될까요?
아무것도 모르고 코드만 쫓아서 보려다 보니 바로 막히는 것이 있어 문의 드립니다.
답변이 힘드신 내용이라면, 궃이 답신 없으셔도 됩니다.
잘 보고 있으며, 코드 공개해 주신점 정말 감사합니다. -
LSH 2017.07.11 19:47
안녕하세요 KOMORAN 3.0 유용하게 잘 사용하고 있습니다.
답글
관련해서 여쭤보고 싶은것이 있는데 2.4버전에서 지원하던
n-best 분석결과는 3.0에서 지원하지 않는지 여쭤보고 싶습니다.
또한 analzeTextfile 을 이용할 때 inputfilename에 들어가는 textfile의 경로를
어디에 위치해야하는지도 궁금합니다.
바쁘시겠지만 답변 부탁드리겠습니다. 감사합니다! -
Soo 2018.02.01 21:59
안녕하세요~ KOMORAN3.0 버전으로 테스트 중인데 궁금한게 있습니다.
답글
dic.word 파일에 감기 라는 단어를 보면 "감기 VV:30 NNG:47" 이렇게 두가지 품사로 되어있는데
1. 각 품사 옆에 표기된 숫자는 무슨 의미일까요?
우선 순위인 줄 알았는데 숫자를 변경해도 동일한 결과가 나오네요.(명사가 우선이었으면 해서 수정해보려고 했습니다만..^^)
models_light로 테스트 해보면 감기라는 단어가 항상 VV로 분석이 되고
models_full 로 테스트 해보면 NNP로 분석이 되더라구요.
2. full 버전일 경우 wiki.titles에 감기 라는 단어가 있어 이런 결과가 나오는것 같은데 해당 폴더내의 단어는 모두 NNP 로 보고 분석 시 해당 폴더내의 단어를 최우선 순위로 보는건가요?
3. dic.irregular 파일 작성 규칙 또한 궁금합니다..
해당 파일에
알아차렸 알아차리/VV 었/EP:1
시켜야만 시키/XSV 어야만/EC:2 시키/VV 어야만/EC:1
하였거나 하/XSV 았/EP 거나/EC:2 하/VV 았/EP 거나/EC:1
등과 같이 되어있는데 규칙이 모두 상이해서 어떤 차이가 있는건지 궁금합니다..
세가지 궁금한 점 문의 드립니다 ^^
감사합니다. -
양구연 2018.10.16 14:34
형태소 분석 대상 문구 : 코스피지수 코스피지수, 재고순환, 소비자기대지수, 수출입물가비율
답글
행태소 분석 결과
------------------------------------
Pair [first=코스피, second=NNP]
Pair [first=지수, second=NNG]
Pair [first=코스, second=NNG]
Pair [first=피, second=NNG]
Pair [first=지수, second=NNG]
Pair [first=,, second=SP]
Pair [first=재고, second=NNG]
Pair [first=순환, second=NNG]
Pair [first=,, second=SP]
Pair [first=소비자, second=NNG]
Pair [first=기대, second=NNG]
Pair [first=지수, second=NNG]
Pair [first=,, second=SP]
Pair [first=수출입, second=NNG]
Pair [first=물가, second=NNG]
Pair [first=비율, second=NNG]
------------------------------------
사용자 사전 추가 : "코스피 NNP", "지수 NNG" 2개 추가
기분석 사전 추가 : "코스피지수 코스피/NNP 지수/NNG" 1개 추가
그러나 형태소 분석 결과는 위와 같이 나옵니다. 이상해서 문의좀 드립니다. 해결방법이 있을까요?
-
찐찐 2019.05.02 23:02
안녕하세요! 코모란을 정말 잘 사용하고 있습니다! 감사합니다!
답글
그런데 코모란에서 pos 함수를 이용하여 형태소 분석을 할 때
line = '안녕 나는 코모란이야'
print(komoran.pos(line)
이렇게 하면 에러가 뜨지 않지만
input_f = open('txt/VTT01.vtt', 'r')
output_f = open('txt/jedong.vtt', 'w')
lines = input_f.readlines()
for i in range(len(lines)):
line = komoran.pos(lines[i])
이렇게 자막파일에서 문장들을 읽어온 후 for문 돌려서 형태소 분석을 하는데 이렇게 하면
jpype._jexception.NullPointerExceptionPyRaisable: java.lang.NullPointerException 이런 에러가 뜹니다.
혹시 해결 방법을 아실까요...?