BLOG main image
분류 전체보기 (46)
Life (4)
Computer Science (3)
Programming (6)
Opensource (6)
Project (17)
Tip (10)
artikel terbaru. berita tekno..
artikel terbaru. berita tekno..
Best way to develop a mobile a..
Best way to develop a mobile a..
123,594 Visitors up to today!
Today 8 hit, Yesterday 36 hit
daisy rss
tistory 티스토리 가입하기!
'Korean POS Tagger'에 해당되는 글 5건
2016.05.12 02:00

KOMORAN 3.0에 대한 안정성 및 피드백을 받기 위해서 베타 버전을 공개합니다.


2.0 대비 주요 변화는 아래와 같습니다.


  • 속도 개선
    • KOMORAN 2.0 : 초당 0.4MB 분석 (MB/sec)
    • KOMORAN 3.0 : 초당 1.0MB 분석 (MB/sec)
  • 기능 추가
    • 형태소 분석 결과로 입력 문장 내 형태소 위치 정보 제공
    • 형태소 분석 결과 중 명사 추출 기능 제공
    • 형태소 분석 결과를 plain text로 제공
    • training 모듈 추가 (직접 training/tuning 하실 수 있습니다!!!!)
  • gradle 적용
  • wiki title을 사전에 적용


기존의 자료 구조를 trie에서 aho-corasick으로 변경하여 속도를 개선하였습니다. (aho-corasick을 찾는데까지 오래 걸림...ㅠㅠ)

또한 lucene 기반의 analyzer에서 쉽게 적용할 수 있도록 분석 결과 token의 position 정보를 제공합니다. (개선해야 될 부분이 많습니다...ㅠ)

아직 KOMORAN 2.0처럼 많이 부족합니다.

그러나 KOMORAN 2.0 처럼 많이 사용해주시고 많은 피드백을 주신다면 감사드리겠습니다. (_ _)

사용법 및 소스는 아래 링크에서 확인하실 수 있습니다.

https://github.com/shin285/KOMORAN


덧, 있어보이려고 github repository에 badge를 2개나 붙였으나....개발 능력 부족으로 인해 coverage가 매우 낮지만....동작에는 문제가 없습니다..ㅠㅠ


저작자 표시 비영리 변경 금지
신고
코랄칼슘 | 2016.05.16 21:51 신고 | PERMALINK | EDIT/DEL | REPLY
안녕하세요!! 코모란 잘 쓰고 있습니다.
에러리포트요!
싸이/VV+는/ETM 가수/NNG+다/JX
가수 싸이는 항상 VV로 나오네요 ㅠㅠ
shine_ing | 2016.05.18 11:40 신고 | PERMALINK | EDIT/DEL
싸이가 사전에는 있지만 싸이/VV가 확률이 더 높게 나와서 생기는 현상이네요. 학습 데이터를 도메인에 맞게 수정하는 방법 밖에는 없을 것 같습니다만...어떻게 하면 도메인에 맞게 자동으로 확률 값을 수정할 수 있게 할지 계속 고민하고 있겠습니다~ 피드백 감사드립니다 :)
김간지 | 2016.05.26 18:07 신고 | PERMALINK | EDIT/DEL | REPLY
회사에서 써보려고 하는데 3.0 beta 버전 혹시 상업적 이용불가 인가요???
shine_ing | 2016.05.26 18:09 신고 | PERMALINK | EDIT/DEL
아파치 라이센스여서 사용하셔도 무방합니다만, 아직 beta여서 안정성이 조금 떨어질 수 있습니다 :)
mjxaone | 2016.06.18 01:29 신고 | PERMALINK | EDIT/DEL | REPLY
안녕하세요.
개인적으로 검색엔진의 기초부분을 작업하고 싶어서
형태소 분석기를 찾던도중 KOMORAN을 보게 되었습니다.
조만간 열심히 사용하고, 많은 요청(?) 하겠습니다.
좋은 자료 감사합니다.
:D
개발개발 | 2016.08.13 18:23 신고 | PERMALINK | EDIT/DEL | REPLY
"바이든 부통령, 포로셴코과 대통령과 크림 사태 논의 통화" 라는 String 값으로 돌리는데요 ㅠㅠ
java.lang.NullPointerException 이 뜨네요...
바이든 부통령 이라는 단어 때문인거 같은데 해결법좀 알려주세요. ㅠ
그리고 그 포로셴코와 같은 단어는 명사 결과로 안나오는데 어떻게 해야하죠??

해보니 2.4버전에서는 되는데요 혹시 2.4버전에서 3.0버전의 analyzeResultList.getNouns() 같은게 있나요??
shine_ing | 2016.08.18 01:31 신고 | PERMALINK | EDIT/DEL
개인적인 사정 때문에 답변이 많이 늦어졌네요. 죄송합니다 ㅠㅠ말씀해주신 소중한 피드백으로 아주 치명적인 버그를 찾아냈습니다. 진심으로 감사드립니다. 방금 릴리즈한 최신 버전에서는 해결되었습니다. 번거로우시겠지만 앞으로도 피드백 부탁드립니다!
덧, 포로셴코와 같은 단어는 사용자 사전에 추가하시면 됩니다 :)
최신 버전 링크 : https://github.com/shin285/KOMORAN/releases/tag/3.0.2
카일로 | 2016.10.04 04:07 신고 | PERMALINK | EDIT/DEL | REPLY
안녕하세요.
예전에 띄어쓰기 무시한 사전은 아직 3.0에 들어가지 않았나요?

예를들어
바람과 함께 사라지다 이거가 사용자 사전에 있을 경우

바람과함께사라지다
바람과 함께사라지다
바람과함께 사라지다

등등이 2.4에는 고유명사로 잘 분류 되었던것 같습니다. (제 착각일 수도 있어 보입니다만..)
shine_ing | 2016.10.04 09:08 신고 | PERMALINK | EDIT/DEL
해당기능은 따로 제공하지 않습니다~ 물론 가능한 조합만들어서 사전에 넣으시면 원하시는 분석 결과를 얻으실 수 있습니다~
kwon | 2016.12.08 17:47 신고 | PERMALINK | EDIT/DEL | REPLY
komoran3.0 사용을 위해 테스트 하고 있습니다.
동작은 잘 하는데 특정 글자에서 java.lang.NullPointerException 에러가 발생하고 있습니다.
테스트한 글자는 '센', '센트롤이' 두가지 이구요 '센트롤' 이라고 하면 에러없이 정상작동 합니다.
KomoranResult.java 에서 Second 에 셋팅되지 않아서 에러가 나는것 같습니다.
if(jasoBeginIdx >= syllableAreaList.get(i).getSecond()){
syllableAreaPair.setSecond(i+1);
}

좀 더 추척해봤지만 소스 전체를 다 이해하지 못해서 어떻게 수정해야할지를 모르겠습니다~~
도움 부탁드려요~
shine_ing | 2016.12.09 11:14 신고 | PERMALINK | EDIT/DEL
리포팅 감사드립니다. 이슈는 확인을 하였습니다. 최대한 빠른 시일 내로 fix하도록 하겠습니다. 감사합니다.
LEE | 2017.03.20 13:09 신고 | PERMALINK | EDIT/DEL
안녕하세요
혹시 위 이슈 사항이 수정이 되었나요?

수정 되었으면
관련파일을 받을수 있는 곳을 알려주셨으면 합니다.

감사합니다
shine_ing | 2017.03.20 13:10 신고 | PERMALINK | EDIT/DEL
네 수정하였습니다~깃헙에서 클론 받으시면 적용되어 있습니다^^
Freeman | 2017.03.02 17:21 신고 | PERMALINK | EDIT/DEL | REPLY
안녕하세요. 코모란을 잘 사용하고 있습니다.
테스트로 Thread를 적용해 보니, 아래와 같은 오류가 발생하네요....

코모란 라이브러리 Thread 적용해서 수행이 가능한지 궁금합니다.....

java.util.ConcurrentModificationException
at java.util.HashMap$HashIterator.nextNode(HashMap.java:1429)
at java.util.HashMap$KeyIterator.next(HashMap.java:1453)
at kr.co.shineware.nlp.komoran.core.analyzer.Komoran.regularParsing(Komoran.java:641)
at kr.co.shineware.nlp.komoran.core.analyzer.Komoran.analyze(Komoran.java:295)
shine_ing | 2017.03.02 17:24 신고 | PERMALINK | EDIT/DEL
2.x 버전을 쓰신다면 anayle 메소드에 synchronized를 붙여주셔야 합니다. 3.x버전은 thread safe 합니다~ 혹시 어떤 버전을 사용하고 계신지요?
hyon86 | 2017.03.24 15:28 신고 | PERMALINK | EDIT/DEL | REPLY
안녕하세요. 코모란 3.0을 사용해 보고 있습니다.

kr.co.shineware.nlp.komoran.core.Komoran.java
아래 메서드 여러 스레드에서 동시 접근 해도 문제가 없는지 문의 드립니다.
public KomoranResult analyze(String sentence) <= 해당 메서드가 thread safety 한지?
shine_ing | 2017.03.24 15:31 신고 | PERMALINK | EDIT/DEL
아마 문제없을 것 같습니다~ 해보시고 댓글부탁드릴게요~
PDK | 2017.03.28 15:47 신고 | PERMALINK | EDIT/DEL | REPLY
복합어 분석이 가능한 코모란 3.0을 파이썬에서 사용하고 싶은데, 어떻게 안 될까요...
shine_ing | 2017.03.30 11:07 신고 | PERMALINK | EDIT/DEL
댓글이 늦어졌네요. 복합어 분석이 가능하다는 말씀이 사과나무 -> 사과+나무 이런 형태를 말씀하시는 건가요? 일단 해당 내용을 한번 고민해보겠습니다! 쉽지 않은 문제여서요.. 그리고 3.0을 파이썬에서 사용할 수 있도록 빠른 시간 내에 작업하겠습니다!
STEVE | 2017.07.03 15:24 신고 | PERMALINK | EDIT/DEL | REPLY
안녕하세요. 코모란3.0을 git에서 받아 코드 분석하면서 스터디 중입니다.
빌드 하면서 코드를 하나씩 쫓아가다 보니 AhoCorasickDictionary<> 부분은 코드를 열어볼 수 없는데, 알고리즘 구현 후 별도로 관리되는 부분인지요?
그리고 models_full 리소스 안의 model 파일은 어떻게 만들어진 것인지 문의 드려도 될까요?
아무것도 모르고 코드만 쫓아서 보려다 보니 바로 막히는 것이 있어 문의 드립니다.
답변이 힘드신 내용이라면, 궃이 답신 없으셔도 됩니다.
잘 보고 있으며, 코드 공개해 주신점 정말 감사합니다.
shine_ing | 2017.07.03 17:11 신고 | PERMALINK | EDIT/DEL
안녕하세요. Ahocorasick 부분은 https://github.com/shineware/aho-corasick 에 구현되어 있습니다.

models_full 부분은 ModelBuilder라는 클래스를 찾아서 보시면 어떻게 바이너리 파일이 만들어졌는지 확인하실 수 있습니다.

관련되서 문의 사항이 있으시면 언제든지 문의부탁드립니다! 감사합니다.
LSH | 2017.07.11 19:47 신고 | PERMALINK | EDIT/DEL | REPLY
안녕하세요 KOMORAN 3.0 유용하게 잘 사용하고 있습니다.
관련해서 여쭤보고 싶은것이 있는데 2.4버전에서 지원하던
n-best 분석결과는 3.0에서 지원하지 않는지 여쭤보고 싶습니다.
또한 analzeTextfile 을 이용할 때 inputfilename에 들어가는 textfile의 경로를
어디에 위치해야하는지도 궁금합니다.
바쁘시겠지만 답변 부탁드리겠습니다. 감사합니다!
shine_ing | 2017.07.15 01:18 신고 | PERMALINK | EDIT/DEL
댓글이 늦었습니다. 죄송합니다.
3.0 버전에서는 현재 n-best 결과를 지원하지 않고 있습니다. 추후 버전에 n-best 결과를 지원할 수 있도록 하겠습니다. 더불어 analyzeTextfile을 이용하실 때 경로는 원하시는 곳에 파일을 위치시킨 후 그 파일의 경로를 inputfilename으로 지정해주시면 됩니다. 감사합니다.
LSH | 2017.07.31 16:34 신고 | PERMALINK | EDIT/DEL | REPLY
안녕하세요 친절한 답변 감사드립니다.
다름이 아니라 현재 코모란 3.0 beta 버전의 정확성이 대략 어느정도인지를 알 수 있을까요?
그리고 training과 tunning 의 개념이 무엇인지 궁금합니다.
| 2017.11.08 11:34 | PERMALINK | EDIT/DEL | REPLY
비밀댓글입니다
Name
Password
Homepage
Secret
2014.11.24 02:49

KOMORAN 2.4




  • 주요 업데이트 내용
    • 불규칙 사전 정제
    • 형태소 분석 시 n-best 분석 결과 제공 기능 추가
      • sample code
        • String in = "바람과 함께 사라지다를 봤어.";

          int nbest = 2;

          List<List<List<Pair<String,String>>>> analyzeNbestResult = komoran.analyze(in,nbest);

      • 분석 결과
        • best 1
          • 바람과 함께 사라지다/NNP+/JKO

            /VV+/EP+/EF+./SF

        • best 2
          • 바람과 함께 사라지다/NNP+/JKO

            /VX+/EP+/EF+./SF

      • 기타
        • 어절 단위 n-best 형태소 분석은 분석 대상 문장을 공백 단위로 tokenize하여 어절 단위로 입력
    • 불규칙 사전 빌드 및 처리 방식 변경에 따른 성능 개선
      • 기호 및 숫자 등을 제외한 순수 한글 어절
        • 어절 정확률 : 93.37% -> 93.60%
        • 형태소 별 품사 정확률 : 95.62% -> 95.88%
      • 기호 및 숫자 등을 포함한 전체 어절
        • 어절 정확률 : 91.59% -> 92.12%
        • 형태소 별 품사 정확률 : 95.06% -> 95.36%

  • 버전 히스토리
    • [2.3]
      • 학습 데이터 정제
    • [2.2]
      • 불용 로그 제거
      • 공백 미포함 형태소 분석 기능 추가
    • [2.1.2]
      • 사용자 환경에 따른 용량별 데이터 제공
      • 조사 결합 규칙 적용
      • 연결 어미 품사 확장
      • 기타 버그 수정
    • [2.1.1]
      • 연속된 영어(SL), 숫자(SN), 한자(SH)에 대한 분석 결과 변경
      • 버그 수정 및 안정화
    • [2.1]
      • 형태소 분석기 안정화 및 속도 개선
    • [2.0.4]
      • 띄어쓰기 관련 버그 및 기타 안정화
    • [2.0.3]
      • 사용자 사전 포맷 오류 수정
    • [2.0.1]
      • 분석 중 에러가 발생하는 치명적 오류 수정
    • [2.0.0]
      • komoran 2.0 beta 최초 공개
    • [2.0.0] 미만

    자세한 사용법은 하기 링크 또는 첨부된 메뉴얼을 참조하시기 바랍니다.

    사용법 (글 제목 : KOMORAN ver 2.0.4 beta (자바 한국어 형태소 분석기))

    데모 사이트



저작자 표시 비영리 변경 금지
신고
권순재 | 2014.11.28 11:51 신고 | PERMALINK | EDIT/DEL | REPLY
에러리포트 입니다.
잘생기다 를 형태소 분석하니 아래와 같이 나오네요.
잘 MAG
생기 VV
그런데 국어사전에 '잘생기다'라는 단어가 있는걸 보아 잘생기다 VV 가 되어야 할 것 같습니다.
또 대한독립의 형태소 분석이
대하 VV
독립 NNG
이렇게 나타납니다. 아무리봐도 대한을 대하 VV와 어미 ㄴ으로 나누어서 형태소 분석을 하는 듯 합니다.
언제나 코모란 열심히 쓰고 있습니다. 감사합니다.
shine_ing | 2014.11.28 11:55 신고 | PERMALINK | EDIT/DEL
리포팅 감사합니다!
근데 제가 2.4 ver 기준으로 '잘생기다'를 테스트해보니
'잘생기/VA+다/EC' 로 나오네요.
대한독립의 경우에는 오분석인 것을 확인하였습니다.
관련 항목 참조하여 차기 업데이트에 반영하도록 하겠습니다! 진심으로 감사드립니다!
글로리 | 2015.03.11 17:57 신고 | PERMALINK | EDIT/DEL | REPLY
안녕하세요!
궁금한 점이 있어서요!!^^
models학습을 HMM을 처리하셨다고하는데요 SVM이나 다른 모델로 변경할려면~
어떻게 해야하는지요?
models 디렉토리에 4개의 파일이 있습니다만~ 규칙이나 방법이나 자료가 있으시면 링크를 좀 부탁합니다
shine_ing | 2015.03.11 19:21 신고 | PERMALINK | EDIT/DEL
안녕하세요. 반갑습니다.
먼저 HMM을 이용해서 models를 생성한 것이여서, SVM을 활용하시려면 거의 새로 만드는 수준이 되야할 것 같습니다 ^^;;
코모란은 속도 향상을 위해서 형태소 분리와 동시에 HMM을 통과시키기 때문에 말씀하신 SVM을 활용하기에는 조금 어려울 것 같습니다 ㅠㅠ
글로리 | 2015.03.12 00:24 신고 | PERMALINK | EDIT/DEL | REPLY
빠른 답변 및 오픈소스에 대해서 감사합니다^^
학생이라 공부하는 재미가 쏠쏠합니당 ㅜㅜ. 관련 분야가 아니라 의지만 ㅜㅜ
그런데요 dic,irregular, dic.word, grammer,in에 대해서 간단한 설명을 부탁합니다.
이 부분을 이해하면 CRF++, SVM 등을 적용해서 간단하게 테스트를 할 수 있을 듯합니다만

shine_ing | 2015.03.30 17:45 신고 | PERMALINK | EDIT/DEL
안녕하세요. 답변이 많이 늦어졌습니다. 죄송합니다 ㅠㅠ
간략히 설명드리자면,
dic.irregular (불규칙 변환 규칙과 관련된 정보를 포함)
dic.word (형태소에 대한 품사 정보를 포함)
grammar (품사 간 결합 규칙 정보를 포함)
이런식으로 구성되어 있습니다.
말씀하신 CRF++나 SVM은 feature를 어떻게 쓸 것인지에 따라 입력될 내용이 많이 달라질 것으로 생각됩니다^^;;
김영 | 2015.03.13 17:26 신고 | PERMALINK | EDIT/DEL | REPLY
안녕하세요~^^
1.에러 리포트입니다.
부여했다 -> 부여/NNG + 하/XSV+았/EP+다/EF로 나옵니다.

2. 사용하시는 사전이 세종말뭉치 사전인가요?
일반 세종말뭉치 사전에서는 빈도가 나오지 않습니다. 어떻게 빈도를 넣었죠잉??

언제나 코모란 재미나게 사용하고 있습니다. 감사요
shine_ing | 2015.03.30 17:47 신고 | PERMALINK | EDIT/DEL
안녕하세요. 답변이 많이 늦어져서 죄송합니다.
먼저 에러리포트 감사드립니다! 추후 버전에서 관련 내용을 포함시켜 꼭 개선시키겠습니다!
사용하고 있는 말뭉치는 세종 말뭉치입니다. 빈도수는 말뭉치에서 나오는 단어의 빈도수를 직접 세서 만들었습니다 ^^
감사합니다!
쓰레드 | 2015.06.02 15:32 신고 | PERMALINK | EDIT/DEL | REPLY
안녕하세요, 오류가 있어서 문의드립니다.
제가 한글형태소 분석을 쓰레드를 이용하여 하려고 하는데요... 잘 안되네요 ^^
NullPointerException도 나고 ConcurrentModificationException 에러도 나고요...
쓰레드를 이용할순 없는건가요???

shine_ing | 2015.06.03 00:56 신고 | PERMALINK | EDIT/DEL
analyze에 synchronized 를 거시면 됩니다.
값진인생 | 2015.06.16 09:44 신고 | PERMALINK | EDIT/DEL | REPLY
안녕하세요. KOMORAN을 R에서 한국어 텍스트 마이닝(문서 군집과 분류)에 사용하고 싶습니다.
테스트 해 보니 KOMORAN 라이브러리가 R에서도 잘 실행되지만, 색인어를 추출하는 함수가 없어 아쉽습니다. 명사를 품사정보 없이 단어만 문자열 배열(또는 리스트)로 리턴하는 함수가 있었으면 좋겠습니다.

그리고 사용자 사전을 시스템 사전과 중복이 없도록 DB로 관리하려 하는데요. 시스템 사전에 어떤 단어가 등록되어 있는지 알 수 있는 방법이 있을까요?

좋은 자료를 공유해 주셔서 감사합니다.
shine_ing | 2015.06.16 14:14 신고 | PERMALINK | EDIT/DEL
안녕하세요. 먼저 말씀하신 것처럼 색인어만을 추출하는 함수에 대한 개발이 예정되어 있습니다.
사용자 사전과 시스템 사전 간의 중복 문제는 고민을 조금 많이 해봐야할 것 같습니다. 시스템 사전에 "다음"이라는 단어와 사용자 사전에 "다음"이라는 단어는 서로 다른 방식으로 동작합니다. 사용자 사전에 우선순위가 매우 높기 때문에 시스템 사전에 단어가 있더라도 추가적으로 사용자 사전에 넣는 경우도 많이 있거든요. 이 부분에 대해서는 어떤식으로 적용할지 고민을 많이 해보겠습니다.
피드백 주셔서 감사합니다. :)
값진인생 | 2015.06.17 18:13 신고 | PERMALINK | EDIT/DEL | REPLY
안녕하세요. 개발이 예정되어 있다니 다음 버전이 기다려지네요 ^^
우선은 결과에서 명사만 추출하는 로직을 추가해서 테스트를 진행하고 있습니다.
그런데 사용자 사전에 추가한 단어가 적용이 되지 않네요.
예제에 있는 것처럼
Komoran 생성 -> setUserDic("사용자 사전 파일") -> analyze("문장")
순으로 실행했는데, 사용자 사전에 추가한 "보건복지부"가 "보건" "복지부"로 분석됩니다. 또한 공백이 포함된 단어도 분석되지 않고요. R에서 테스트를 하다보니 소스를 올려도 도움이 안될 것 같네요. 혹시 필요하시면 댓글 달아 주세요. 감사합니다.
==========================
수정> 사용자 사전 파일 인코딩을 UTF-8로 했다고 생각했는데, 다시 확인해 보니 CP949로 되어 있었네요. 인코딩 변경 후 잘 되네요 ^^
지구민 | 2016.01.22 14:03 신고 | PERMALINK | EDIT/DEL | REPLY
안녕하세요. 저기 뭐좀 물어보려고 하는데요
혹시 1.6으로 재컴파일 해서 사용가능할까요?
가능하다면
https://github.com/shineware/komoran-2.0
여기 공개한 소스를 그대로 사용해도 되는건지요?
Name
Password
Homepage
Secret
2014.09.29 20:46

KOMORAN 2.3




  • 주요 업데이트 내용
    • 불규칙 사전 정제
    • models-full에 포함된 단어 중 오분석을 유발할 수 있는 단어 정제

  • 버전 히스토리
    • [2.2]
      • 불용 로그 제거
      • 공백 미포함 형태소 분석 기능 추가
    • [2.1.2]
      • 사용자 환경에 따른 용량별 데이터 제공
      • 조사 결합 규칙 적용
      • 연결 어미 품사 확장
      • 기타 버그 수정
    • [2.1.1]
      • 연속된 영어(SL), 숫자(SN), 한자(SH)에 대한 분석 결과 변경
      • 버그 수정 및 안정화
    • [2.1]
      • 형태소 분석기 안정화 및 속도 개선
    • [2.0.4]
      • 띄어쓰기 관련 버그 및 기타 안정화
    • [2.0.3]
      • 사용자 사전 포맷 오류 수정
    • [2.0.1]
      • 분석 중 에러가 발생하는 치명적 오류 수정
    • [2.0.0]
      • komoran 2.0 beta 최초 공개
    • [2.0.0] 미만

    자세한 사용법은 하기 링크를 참조하시기 바랍니다.

    사용법 (글 제목 : KOMORAN ver 2.0.4 beta (자바 한국어 형태소 분석기))

    - 데모 사이트


    KOMORAN과 관련된 문의 사항은 ceo@shineware.co.kr로 연락주시기 바랍니다.


저작자 표시 비영리 변경 금지
신고
lancif | 2014.10.02 15:37 신고 | PERMALINK | EDIT/DEL | REPLY
감사합니다! 요번 버전도 잘 쓸게요. ^^

버그 리포트 하나 더 합니다.

입력 : 어떠신지
출력 : 어떠/XR 신/NNG 이/VCP 지/EC
shine_ing | 2014.10.02 15:43 신고 | PERMALINK | EDIT/DEL
감사합니다.
매번 이렇게 피드백 주셔서 감사합니다!!
lancif | 2014.10.09 16:36 신고 | PERMALINK | EDIT/DEL | REPLY
버그 리포트할게요 ^^

"회신주시기 바랍니다"에서 따온건데요,

입력 : 회신주시기
출력 : 회/NNB 신주/NNG 시기/NNG

이렇게 나옵니다. 여기서, '주'가 동사로 뽑혔으면 하거든요.
입력했던 문장에 제대로 띄어쓰기를 해서 "회신 주시기"로 쓰면 제대로 됩니다.

감사합니다.
shine_ing | 2014.10.13 11:53 신고 | PERMALINK | EDIT/DEL
개인적인 일 때문에 답변이 늦었네요. 죄송합니다 ^^;;
리포팅하신 내용은 띄어쓰기가 올바르지 않아서 나타나는 문제인데, 사실 komoran에는 띄어쓰기 모듈이 들어있지 않습니다..ㅠㅠ 그래서 말씀하신 내용은 프로그램 측면에서 버그라기보다는 데이터 오류로 보여집니다만..말씀하신 내용들도 잘 처리를 해야겠죠! 조만간 띄어쓰기 모듈 추가해서 업데이트 하도록 하겠습니다! 항상 감사합니다!
lancif | 2014.10.15 10:54 신고 | PERMALINK | EDIT/DEL
감사합니다 ^^
Curycu | 2014.10.19 00:21 신고 | PERMALINK | EDIT/DEL | REPLY
안녕하세요/ komoran 유저입니다 :) 요번에 코모란 및 여러 형태소 분석기들을 이용해서 텍스트마이닝 프로그램을 작성 중인데요, 코모란이 제공하는 메소드 중에서는 "추출된 형태소의 원문 내에서의 위치" 를 알려주는 메소드가 없는 것 같더라구요/ 내부적으로는 형태소 분석 시에 분명 사용되고 있는 정보일 듯 한데, 차후 업데이트에서 해당 정보를 제공하는 메소드를 추가해주실 수 있을까요?
shine_ing | 2014.10.19 01:17 신고 | PERMALINK | EDIT/DEL
분석된 형태소가 입력된 텍스트에서 몇번째위치인지 알려달라는 말씀이신가요? 만약에 맞다면 이 부분은 형태소분석기의 기능이 아니라서 조금 힘들것 같습니다^^;;
Curycu | 2014.10.19 02:01 신고 | PERMALINK | EDIT/DEL | REPLY
엇... 그렇군요 ㅠ.ㅠ 알겠습니다~
shine_ing | 2014.10.19 02:04 신고 | PERMALINK | EDIT/DEL
형태소 분석기를 쉽게 응용 및 적용 가능하게끔 라이브러리들을 개발 예정 중에 있습니다. 말씀해주신 피드백 성실히 반영하도록 하겠습니다! 감사합니다^^;
lancif | 2014.10.27 17:03 신고 | PERMALINK | EDIT/DEL | REPLY
버그 리포트 하나 할게요. ^^

입력: "가. 일정: 10/20"
출력: "가/VV 아/EF ./SF 일정/NNG :/SP 10/SN //SP 20/SN"

문제는 '가.'입니다. 목차를 표현하려고 쓰인 것인데, 동사가 뽑혀버렸습니다.
'나.', '라.' 에서도 같은 현상이 나타납니다.

Ambiguity 문제라 해결하기 어려울 수도 있겠지만, 일단은 리포팅해봅니다. ^^

매번 감사합니다!
shine_ing | 2014.10.27 18:11 신고 | PERMALINK | EDIT/DEL
매번 감사드립니다. 현재 영어 품사 태거를 만들고 있어서 코모란 업데이트가 지연되고 있네요..ㅠㅠ 조만간 빨리 반영하도록 하겠습니다!
lancif | 2014.10.28 09:45 신고 | PERMALINK | EDIT/DEL
감사합니다 ^^
lancif | 2014.10.30 10:21 신고 | PERMALINK | EDIT/DEL | REPLY
버그 리포팅 하나 더 할게요.

입력: "보내주셔요"
출력: "보/NNG 내주/NNG 시/VA 어요/EC"

입력: "주셔요"
출력: "주/NNG 시/VA 어요/EC"

피드백 매번 잘 반영해주셔서 감사합니다. ^^
shine_ing | 2014.11.04 18:14 신고 | PERMALINK | EDIT/DEL
감사합니다! 아마 금주 내로 업데이트 될 것 같습니다! 감사합니다!
정담 | 2014.11.04 18:13 신고 | PERMALINK | EDIT/DEL | REPLY
이쪽 분야는 전혀 몰라서 어떻게 할지 난감했는데
덕분에 수고를 많이 줄였습니다.
정말 큰 도움 되었습니다. 감사합니다.
^_^b
shine_ing | 2014.11.04 18:15 신고 | PERMALINK | EDIT/DEL
도움이 되었다니 다행이네요. 사용하시다가 불편하신 점이나 이상한 점은 망설이지 마시고 바로 알려주시면 적극 반영하겠습니다. 감사합니다!
Name
Password
Homepage
Secret
2014.09.12 10:21

KOMORAN 2.2


    • 주요 업데이트 내용
      • 일부 문장 분석 시 특정 로그가 출력되는 현상 제거
      • 형태소 분석 시 공백 포함/미포함 분석 기능 추가
        • 공백 포함 분석(2.2 이전 버전과 동일한 메소드 사용)
          • sample code
            • String in="바람과 함께 사라지다를 봤어.";            

              List<List<Pair<String,String>>> analyzeResultList = komoran.analyze(in);

          • 분석 결과

            • 바람과 함께 사라지다/NNP+를/JKO

              보/VV+았/EP+어/EF+./SF

        • 공백 미포함 분석(2.2 버전 신규 메소드)

          • sample code

            • String in="바람과 함께 사라지다를 봤어.";            

              List<List<Pair<String,String>>> analyzeResultList = komoran.analyzeWithoutSpace(in);

          • 분석 결과

            • 바람/NNG+과/JC

              함께/MAG

              사라지/VV+다/EC+를/JKO

              보/VV+았/EP+어/EF+./SF

    • 버전 히스토리
      • [2.1.2]
        • 사용자 환경에 따른 용량별 데이터 제공
        • 조사 결합 규칙 적용
        • 연결 어미 품사 확장
        • 기타 버그 수정
      • [2.1.1]
        • 연속된 영어(SL), 숫자(SN), 한자(SH)에 대한 분석 결과 변경
        • 버그 수정 및 안정화
      • [2.1]
        • 형태소 분석기 안정화 및 속도 개선
      • [2.0.4]
        • 띄어쓰기 관련 버그 및 기타 안정화
      • [2.0.3]
        • 사용자 사전 포맷 오류 수정
      • [2.0.1]
        • 분석 중 에러가 발생하는 치명적 오류 수정
      • [2.0.0]
        • komoran 2.0 beta 최초 공개
      • [2.0.0] 미만

자세한 사용법은 하기 링크를 참조하시기 바랍니다.

사용법 (글 제목 : KOMORAN ver 2.0.4 beta (자바 한국어 형태소 분석기))


KOMORAN과 관련된 문의 사항은 ceo@shineware.co.kr로 연락주시기 바랍니다.


저작자 표시 비영리 변경 금지
신고
얍얍 | 2014.09.18 19:48 신고 | PERMALINK | EDIT/DEL | REPLY
위에있는 프로그램 다섯개 다운받은다음에 어떻게 해야 되나요...?
도저히 사용법을봐도..잘 이해가 안가네요
shine_ing | 2014.09.24 00:57 신고 | PERMALINK | EDIT/DEL
완전한 프로그램이 아닌 자바 라이브러리 형태입니다. 자바 프로그래밍에 대한 이해가 있으셔야 사용이 가능하십니다. 프로그래밍과 관련 없이 사용할 수 있도록 완전한 프로그램을 조만간 추가하도록 하겠습니다. 불편을 드려서 죄송합니다..
권순재 | 2014.09.19 14:17 신고 | PERMALINK | EDIT/DEL | REPLY
버그 리포트 할게요
큰따옴표와 작은따옴표의 대표적인 용례를 소개해 주세요.
[큰따옴표 NNP, 작은따옴표 NNP, 대표 NNG, 적 XSN, 이 VCP, ㄴ ETM, 용례 NNG, 소개 NNG, 하 XSV, 아 EC, 주 VX, 시 EP]
큰따옴표 같은 경우 큰따옴표 NNP <- 요런식으로 잡히네용
shine_ing | 2014.09.24 01:00 신고 | PERMALINK | EDIT/DEL
models-full과 같은 경우에는 위키피디아에 있는 제목들이 고유명사로 추가되었습니다. 그 과정에서 말씀하신 큰따옴표가 위키페이지에 존재하여 고유명사로 인식되는 것을 확인하였습니다. 이 부분은 위키피디아 데이터를 검수하여 수정하도록 하겠습니다. models-light 버전을 사용하시면 큰따옴표가 NNP로 분석되지 않을 것입니다^^ 감사합니다.
lancif | 2014.09.24 14:28 신고 | PERMALINK | EDIT/DEL | REPLY
코모란 매번 잘 쓰고 있습니다. ^^
저도 버그리포트 하나 할게요.

입력: 않을게요
출력: 않/VX 으시/EP ㄹ게요/EC

여기서 '으시'가 잘못나온것 같아요. '시'가 빠져야할것 같아요
shine_ing | 2014.09.24 15:20 신고 | PERMALINK | EDIT/DEL
불규칙 사전에 잘못된 정보가 있는 것 같네요~ 업데이트 시 반드시 반영하도록 하겠습니디ㅏ. 감사합니다!
lancif | 2014.09.25 16:40 신고 | PERMALINK | EDIT/DEL | REPLY
질문하나 더 드릴게요. ^^

입력: 가능
출력: 가능/XR

이렇게 나오는데요, 이것도 버그인가요?
아니면, XR('어근' 맞나요?)로 나오는게 맞는건가요?
shine_ing | 2014.09.25 16:45 신고 | PERMALINK | EDIT/DEL
글쎄요..어근이라는 품사 자체가 매우 애매한 부분이죠..학습한 데이터를 살펴보니 어근이라고 태깅되어 있네요^^ 개인적으로 어근이라는 태그를 명사로 변경할까 생각중입니다..애매하죠 참..ㅎㅎ
lancif | 2014.09.25 17:33 신고 | PERMALINK | EDIT/DEL
그렇군요. 감사합니다 ^^
lancif | 2014.09.29 11:07 신고 | PERMALINK | EDIT/DEL | REPLY
버그 리포트 하나 더 드립니다. ^^

입력: 주셔요
출력: 어/EC 주/VX 시/EP 어요/EC
shine_ing | 2014.09.29 13:13 신고 | PERMALINK | EDIT/DEL
정말 감사드립니다! 사실 이런 부분은 학습데이터 자체에 의한 버그라서 정말 찾기 힘든 부분인데.. 진심으로 감사드립니다!
lancif | 2014.09.29 14:02 신고 | PERMALINK | EDIT/DEL
저야 말로, 좋은 형태소분석기 만들어주셔서 감사합니다 ^^
Name
Password
Homepage
Secret
2014.08.11 14:10

KOMORAN 2.1


    • 주요 업데이트 내용
      • 형태소 분석기 안정화 및 속도 개선
    • 버전 히스토리
      • [2.0.4]
        • 띄어쓰기 관련 버그 및 기타 안정화
      • [2.0.3]
        • 사용자 사전 포맷 오류 수정
      • [2.0.2]
        • 띄어쓰기 관련 오류 수정
      • [2.0.1]
        • 분석 중 에러가 발생하는 치명적 오류 수정
      • [2.0.0]
        • komoran 2.0 beta 최초 공개
      • [2.0.0 미만]


자세한 사용법은 하기 링크를 참조하시기 바랍니다.

- 사용법 (글 제목 : KOMORAN ver 2.0.4 beta (자바 한국어 형태소 분석기))


저작자 표시 비영리 변경 금지
신고
obama | 2014.08.11 17:56 신고 | PERMALINK | EDIT/DEL | REPLY
릴리즈 감사합니다. 잘 사용하겠습니다. ;-)
shine_ing | 2014.08.11 18:44 신고 | PERMALINK | EDIT/DEL
피드백 많이 주세요 :)
origoni | 2014.08.11 22:14 신고 | PERMALINK | EDIT/DEL | REPLY
감사합니다!!
요즘 갑자기 바빠지긴 했는데요 ㅠㅠ 시간 나는대로 사용해보고 피드백 드리겠습니다!!!
shine_ing | 2014.08.11 23:04 신고 | PERMALINK | EDIT/DEL
제가 오히려 감사드리죠 :)
본의아니게 얼마전에 제주도로 옮기신걸 알게됐습니다~ 제주도 어떤가요?!
shine_ing | 2014.08.11 23:04 신고 | PERMALINK | EDIT/DEL
본의아니게 옮겼다는 뜻이 아니라 제주도로 옮기신걸 본의아니게 알게 되었다는 의미입니다..-ㅁ-..자연어처리..하...ㅠㅠ
hare | 2014.08.12 18:01 신고 | PERMALINK | EDIT/DEL | REPLY
버전이 점점 올라가는군요! 언제나 감사드립니다!
shine_ing | 2014.08.12 18:21 신고 | PERMALINK | EDIT/DEL
제가 감사드리죠! 사용해보시고 피드백 부탁드립니다 ^^
lancif | 2014.08.12 21:07 신고 | PERMALINK | EDIT/DEL | REPLY
매번 감사합니다. 잘 쓸게요!
shine_ing | 2014.08.12 23:00 신고 | PERMALINK | EDIT/DEL
사용하시다가 불편한점 있으시면 알려주세요~
lancif | 2014.08.14 22:57 신고 | PERMALINK | EDIT/DEL | REPLY
한 문장을 통채로 분석하는 것과 각 단어별로 따로 분석해서 합친 결과에 차이가 있나요?

예를 들어, "안녕하세요. 제 이름은 김철수입니다. 잘 부탁 드립니다." 라는 문장을 통채로 입력해서 분석했을 때와,
"안녕하세요.","제","이름은","김철수입니다","잘","부탁","드립니다."를 각각 따로 입력해서 분석한 후 결과를 합쳤을 때,

결과가 달라질 수도 있나요? (위의 경우는 똑같은 결과가 나옵니다만, 혹시 다른 문장을 넣었을 때 달라질 수도 있는지 궁금합니다)
shine_ing | 2014.08.14 23:30 신고 | PERMALINK | EDIT/DEL
현재 알고리즘 상으로는 같은 결과가 나올 것 같네요~ 문장 단위로 분석하는 알고리즘을 추가할 예정인데 그때는 아마 달라질것 같습니다~
lancif | 2014.08.15 07:24 신고 | PERMALINK | EDIT/DEL
그렇군요. 감사합니다! ^^
shine_ing | 2014.08.15 11:03 신고 | PERMALINK | EDIT/DEL
참고로 사용자 사전에 "이름은 김철수"라고 있다고 한다면 결과가 다르겠네요~ 또 문의사항있으시면 알려주세요~^^
lancif | 2014.08.15 15:32 신고 | PERMALINK | EDIT/DEL | REPLY
하나 더 물어볼게요. ^^
태그 중에 'NA'가 새로 생긴것 같은데요, Not Available, No Answer, 뭐 그런 뜻인가요?

예를 들어, '<DATE>까지 놀다 온다.' 라는 문장을 돌리면 이전 버전에서는 '<DATE>'가 특수기호, 영어 각각으로 분리됐었는데,
이번 버전에서는 '<DATE>까지/NA' 라고 나오네요.
shine_ing | 2014.08.16 00:21 신고 | PERMALINK | EDIT/DEL
현재 영어나 숫자등이 특별한 의미가 없다면 기존과는 다르게 개별적(single character)으로 태깅이 됩니다만, 이 때 조합할 수 없는 경우가 나타나면 단어 전체가(word)NA로 태깅이 됩니다. 이 부분은 현재 어떤식으로 출력을 하는 것이 맞을지에 대해서 고민중에 있습니다만...이전 버전과 동일한 형태로 가야할 것 같습니다^^ 피드백 감사드리며 이는 재빨리 수정하여 다시 업데이트하도록 하겠습니다. 감사합니다!
shine_ing | 2014.08.17 01:13 신고 | PERMALINK | EDIT/DEL
위에 있는 댓글과는 별개로 말씀하신대로 "<DATE>까지 놀다 온다."로 테스트 해 본 결과 NA 태그가 발생하지 않네요..죄송하지만 다시한번만 확인해보시고 알려주시면 감사드리겠습니다!
lancif | 2014.08.19 19:29 신고 | PERMALINK | EDIT/DEL
죄송합니다. 제가 이것저것 테스트하다가 예제를 잘못올렸네요. ^^;;

<DATE_A>까지 놀다 온다.

이 문장을 입력으로 넣으면 '<DATE_A>까지/NA'라고 결과가 나옵니다.
(제가 이걸 옮겨 쓴다는게 실수를 했습니다.)
(참고로 이 문제는, 태깅된 코퍼스로 개체명 인식기 트레이닝 시키다가 생겼던 문제입니다. 지금은 모든 개체명 태그셋을 사용자 사전에 넣어서 처리했습니다.)

신경써주셔서 감사합니다. 2.1.1 버전도 감사히 쓰겠습니다!
shine_ing | 2014.08.20 01:11 신고 | PERMALINK | EDIT/DEL
죄송하실 필요까지야..^^;;;
방금 알려주신 내용으로 테스트를 해보니 NA 태그가 나오네요. 확인 결과 언더바(_)를 처리하지 못해서 해당 어절이 NA로 태깅되버리는 결과가 나오는 것으로 확인했습니다. 조만간 업데이트할 예정인데 그때 반드시 반영하도록 하겠습니다! 피드백 감사합니다!
Name
Password
Homepage
Secret
prev"" #1 next