BLOG main image
분류 전체보기 (46)
Life (4)
Computer Science (3)
Programming (6)
Opensource (6)
Project (17)
Tip (10)
artikel terbaru. berita tekno..
artikel terbaru. berita tekno..
Best way to develop a mobile a..
Best way to develop a mobile a..
117,871 Visitors up to today!
Today 5 hit, Yesterday 54 hit
daisy rss
tistory 티스토리 가입하기!
'형태소분석'에 해당되는 글 3건
2013.04.02 00:08

한글 형태소 분석기 KOMORAN 0.6 버전을 공개합니다.


네이밍과 관련하여 몇몇 분의 문의를 주셨는데, KOMORAN은


KOrean MORphological ANalyzer의 약자입니다.


버전업 주요 히스토리


ver 0.6 

- 기존 0.5 버전 ( 링크 )에 기분석 사전을 추가하였습니다.

- 기분석 사전 추가로 인해 분석 속도가 2배 가량 빨라졌습니다. (sec 당 200kb 분석)

- VM는 최소 512mb를 필요로 합니다. ( -Xms512m -Xmx512m )


  • 형태소 분석 Core 라이브러리 파일
  • 형태소 분석 라이브러리 내 사용되는 유틸성 라이브러리

  • 필요 라이브러리 파일


사용법은 ver 0.5와 같습니다. ( 링크 )


본 형태소 분석기는 상업적 용도의 사용을 금지합니다. (안정성 검증 필요, 별도 연락)


개인 및 비상업적 용도로만 사용을 하실 수 있습니다.


사용중 나타나는 버그 및 오류는 댓글이나 메일 shin285 AT 네이버.com 으로 알려주시기 바랍니다.


※ 현재 자연어처리와 관련된 라이브러리 및 엔진들을 계속적으로 연구하고 만들고자 합니다. 함께 하시길 원하시는 분은 연락부탁드립니다.


========== 2013.04.02 10:45분 추가==========

현재 데이터 경로와 관련된 에러가 있습니다. 금일 저녁에 다시 업로드 하겠습니다. 잠시 링크는 삭제하겠습니다.


========== 2013.04.02 21:09분 추가==========

데이터 경로와 관련된 에러를 수정하였습니다. 에러를 알려주신 "hare"님께 감사드립니다^^


==========[2013.05.20. 11:51분 추가]==========

- 1.0 버전이 릴리즈 되었습니디다. 링크 참고 하시기 바랍니다. ( KOMORAN 1.0 )



저작자 표시 비영리 변경 금지
신고
hare | 2013.04.02 10:33 신고 | PERMALINK | EDIT/DEL | REPLY
안녕하세요. 만드신 형태소분석기를 사용해봤습니다.
결과는 잘 나오는데
"java.io.FileNotFoundException: \Users\shin285\Documents\6. Data\5. Morphology Model\irrDic.txt (지정된 경로를 찾을 수 없습니다)" 에러메시지가 나오는데요. 다른 설정을 해야 하는건가요?
파일은 정상적으로 들어가 있습니다.
shine_ing | 2013.04.02 21:39 신고 | PERMALINK | EDIT/DEL
아..죄송합니다..그 부분을 손봤어야 했는데..테스트용 라이브러리가 그대로 올라간 것 같습니다. 금일 저녁에 바로 손봐서 다시 업데이트 하겠습니다. 죄송합니다.
============이하 추가 내용============
오류 수정하였습니다. 감사합니다^^
pch | 2013.04.30 22:00 신고 | PERMALINK | EDIT/DEL | REPLY
java.io.FileNotFoundException: 형태소 분석용 파일들이 저장된 루트 폴더observation.obj (지정된 파일을 찾을 수 없습니다)

이런식으로 줄줄이 오류가 뜨는데 해결방법 알려주시면 감사하겠습니다..
shine_ing | 2013.05.01 01:15 신고 | PERMALINK | EDIT/DEL
저장된 루트 폴더의 가장 뒤에 "/"를 붙여주셔야 합니다^^;;
예를 들어 "komoran_datas"라는 루트 폴더에 있다면 "komoran_datas/"로 표기해야합니다.
조만간 유연하게 사용가능 할 수 있도록 수정하겠습니다. 죄송합니다 ㅠㅠ
pch | 2013.05.01 12:59 신고 | PERMALINK | EDIT/DEL | REPLY
0.5의 예제코드에서 보면 폴더를 지정해주는 부분은 없던데, 폴더를 어떤식으로 지정해주나요?
shine_ing | 2013.05.01 22:33 신고 | PERMALINK | EDIT/DEL
0.5 예제코드에서 객체 생성시에 경로를 지정해주는 부분이 있었는데, 포스팅의 문맥과 잘 맞지 않아 이해가 어려웠던 것 같습니다. 죄송합니다. 자세한 내용은 스크린샷을 첨부하였습니다. 감사합니다.
Name
Password
Homepage
Secret
2013.03.19 00:40

자바로 만든 한글 형태소 분석기를 공개합니다.


이름은 KOMORAN입니다.


현재 자체 테스트는 완료하였습니다.


기본적인 어절 단위 형태소 분석기를 따르고 있습니다. (sec 당 약 100kb 분석)


사용 중 발생하는 에러는 댓글로 부탁드립니다.


필요한 라이브러리 파일은 아래와 같습니다.

    • 형태소 분석 라이브러리 내 사용된 유틸성 라이브러리


    • 분석에 필요한 모델 파일들은 아래와 같습니다.



사용법은 아래와 같습니다.


public static void main(String[] args) {

MorphologyAnalyzer analyzer = new MorphologyAnalyzer("형태소 분석용 파일들이 저장된 루트 폴더");

List<List<Pair<String,String>>>reslut =  analyzer.analyze("감기는 자주 걸리는 병이다.");

for (List<Pair<String, String>> wordResult : reslut) {

for (Pair<String, String> pair : wordResult) {

System.out.println(pair);

}

System.out.println();

}

}


사용법과 관련하여 문의 사항이 있어서 스크린샷을 첨부하였습니다.

datas 밑에 필요한 파일들을 위치시켜 놓습니다.



형태소 분석기 객체 생성시에 위에 위치한 폴더 경로인 "datas/"를 지정해줍니다.




출력 결과는 아래와 같습니다.


Pair [first=감기, second=VV]

Pair [first=는, second=ETM]


Pair [first=자주, second=MAG]


Pair [first=걸리, second=VV]

Pair [first=는, second=ETM]


Pair [first=병, second=NNG]

Pair [first=이, second=VCP]

Pair [first=다, second=EF]

Pair [first=., second=SF]


본 형태소 분석기는 상업적 용도의 사용을 금지합니다. (안정성 검증 필요, 별도 연락)


개인 및 비상업적 용도로만 사용을 하실 수 있습니다.


※ 현재 자연어처리와 관련된 라이브러리 및 엔진들을 계속적으로 연구하고 만들고자 합니다. 함께 하시길 원하시는 분은 연락부탁드립니다.


==========[2013.03.20. 14:50분 추가]==========

- 현재 성능 테스트, 오류 및 버그 분석을 위해서 기분석 사전(FWD)을 사용하지 않고 있습니다.


==========[2013.03.22. 14:50분 추가]==========

- 현재 내용은 4월 1일부터 새로운 버전으로 릴리즈 예정입니다. 이용에 참고 하시기 바랍니다.


==========[2013.04.01. 23:50분 추가]==========

- 기분석 사전이 포함된 새로운 버전으로 릴리즈 되었습니다. 링크 참고 하시기 바랍니다. ( KOMORAN 0.6 )

- 현재 버전은 기존에 사용중이신 분들을 위해 그대로 유지하겠습니다.


==========[2013.05.20. 11:51분 추가]==========

- 1.0 버전이 릴리즈 되었습니디다. 링크 참고 하시기 바랍니다. ( KOMORAN 1.0 )


저작자 표시 비영리 변경 금지
신고
안녕하세요 | 2013.03.20 13:53 신고 | PERMALINK | EDIT/DEL | REPLY
저는 프로그램같은 건 전혀 모르지만 예시문장부터 오류길래 남겨요. 감기는은 감기/NNG+는/JX 일텐데 프로그램은 동사 감기다로 분석했네요 ^^;
shine_ing | 2013.03.20 14:48 신고 | PERMALINK | EDIT/DEL
안녕하세요^^ 사실 감기가 NNG가 맞지만 현재 어절 내 확률기반으로 계산을 하고 있기 때문에 VV로 나오고 있습니다~ 물론 어절 간의 정보를 이용하면 감기/NNG로 나올 수는 있습니다만, 전체적인 성능은 오히려 떨어지는 단점이 있습니다~ 지적 감사드립니다~

결론 : 데이터 추가 또는 어절 정보 사용으로 수정 가능.
조치 : 조만간 업데이트 예정.
유총재 | 2013.04.01 14:22 신고 | PERMALINK | EDIT/DEL | REPLY
안녕하세요.

분석기 잘 사용하고 있습니다.

Clien에서 졸업작품에 사용한다고 글을 남겼는데..

데이터가 좀 많은 것을 for문으로 돌리면서 넣어봤더니...

Heap space 오류를 뱉어내는군요 ㅠ

다른 부분에서의 Memory Leak은 다 확인 해 보았으나, 형태소 분석기를 추가하면 Memory 오류가 발생합니다.

혹, 분석기 내에서 제가 인풋으로 집어넣은 String이나..String을 통해 분석된 형태소가 계속 저장되어 있는 건 아닌지 싶어 글 남깁니다.

항상 감사하고 있습니다!
shine_ing | 2013.04.02 00:42 신고 | PERMALINK | EDIT/DEL
안녕하세요.
내부적으로 init을 해주어서 메모리 부족문제는 최대한 안나도록 해놓았습니다만, 한번 더 확인해보겠습니다. 혹시 그 데이터를 제가 테스트 해볼 수 있을까요?
========= 이하 추가 내용 =========
현재 1G정도의 문서를 분석해봤는데 memory 오류가 나질 않네요..실험하신 데이터를 제가 직접 돌려봐야할 것 같네요. 데이터 좀 부탁드리겠습니다 ^^
유총재 | 2013.04.02 10:50 신고 | PERMALINK | EDIT/DEL | REPLY
직접 테스트 해 보셨다니 감사합니다.ㅠㅠ

실험 데이터 보기 쉽게 정리해서 올리겠습니다!

소스코드를 코멘트로 올리는 게 편할까요..메일로 따로 보내드릴까요??
shine_ing | 2013.04.02 11:13 신고 | PERMALINK | EDIT/DEL
용량이 크지 않으면 메일로 보내주셨으면 합니다 ^^
shin285 AT naver.com 으로 부탁드리겠습니다~
shine_ing | 2013.04.05 09:18 신고 | PERMALINK | EDIT/DEL | REPLY
"유총재"님이 알려 주신 Heap space 오류는 형태소 분석기 문제가 아닌 것으로 확인 됐습니다.
casionwoo | 2013.05.07 12:29 신고 | PERMALINK | EDIT/DEL | REPLY
질문이 있는데요 혹시 Pair에서 second가 그 형태소의 의미인거같은데 설명을 찾을수가 없어요 혹시 각각이 무슨 뜻인지 알수 있을까요?
shine_ing | 2013.05.08 00:53 신고 | PERMALINK | EDIT/DEL
안녕하세요. KOMORAN 업데이트와 문서 정리를 동시에 하다보니 정신이 없어서 기본적인 설명도 빠트렸네요..ㅠㅠ 기본적으로 형태소 정보는 세종 품사 셋을 따르고 있습니다. http://nlp.kangwon.ac.kr/~nlpdemo/KACTEIL-KMA/right.html 를 참조하시면 될 것 같습니다^^ 감사합니다~
casionwoo | 2013.05.08 11:34 신고 | PERMALINK | EDIT/DEL | REPLY
제가 사용해서 분석을 해 보려하는데 사용은 잘됩니다만 "싸이콘서트"
라는 말을 싸, 이콘서트, 콘서트 이렇게 인식하더라고요

혹시 싸이라는 말을 인식을 못하는거 같은데 사전을 제가 따로 고치는 방법이 있을까요?

원하는 단어를 사전에 등록 시키는 방법이 있는지를 알고 싶습니다.
shine_ing | 2013.05.08 14:46 신고 | PERMALINK | EDIT/DEL
문의주신 내용은 현재 업데이트 되고있는 버전에 반영하였습니다. 금주내로 업데이트 예정이오니 조금만 기다려주세요^^
casionwoo | 2013.05.08 20:07 신고 | PERMALINK | EDIT/DEL | REPLY
혹시 제가 사전을 수정하여서 사용할 수 잇는 방법에는 없을까요?
이상한 에러가 생길때마다 바로바로 수정하여서 사용하고싶어서요.ㅠ
참고로 사용하는 것은 졸업프로젝트에 사용하고 있습니다.
shine_ing | 2013.05.09 02:55 신고 | PERMALINK | EDIT/DEL
사전을 추가 할 수는 있지만 사전을 직접 수정하는 방법은 상당히 위험합니다. 형태소 분석기를 어떤 요소에 사용하고 계신지는 모르겠지만, 사전을 바로바로 수정 하시길 원하신다면 형태소 분석기보다는 정규표현식을 이용한 일반 사전 매칭 방법을 사용하시는 방법이 더 적합할 것 같습니다.
Name
Password
Homepage
Secret
2012.10.31 03:28

국내에는 공개적으로 사용가능한 형태소 분석기가 몇개 없습니다.


자연어처리를 전공한 사람으로써 매우 안타깝다고 생각하고 있었습니다.


비록 성능은 좋지 못하지만 기본에 충실한 어절 단위 형태소 분석기를 오픈 소스로 공개하려합니다.


유능한 개발자 분들이 만들어두신 형태소 분석기도 있지만


사전이 잘못 됐는지는 모르겠으나 대부분 명사로 추출되는 경향이 강했습니다.


물론 루씬과 같은 검색기에서 주로 사용되는 품사는 명사류입니다만,


엄연히 말하자면 형태소 분석기와 색인기(명사 추출기)는 다르다고 말씀드리고 싶습니다.


비록 개발능력은 떨어지지만 고전 방식의 형태소 분석기를 제공하도록 하겠습니다.


다양한 분야에서 널리 사용되었으면 하는 작은 바람입니다.

저작자 표시 비영리 변경 금지
신고

'Opensource > Shineware' 카테고리의 다른 글

자바 HMM 라이브러리 소스 공개  (1) 2014.11.13
[FileUtil] 자바 파일 읽기  (2) 2012.11.06
자바 HMM 라이브러리  (21) 2012.10.31
형태소 분석기 오픈소스  (2) 2012.10.31
남호성 | 2015.05.24 16:29 신고 | PERMALINK | EDIT/DEL | REPLY
안녕하세요 대학에서 컴퓨터 공부중인 학생입니다.
한글 리뷰 분석 프로그램을 만들기 위해 필요한 api를 알아보던중 이글을 보게 되었습니다. 혹시 소스를 얻을수 있을까 해서 글남깁니다
shine_ing | 2015.05.24 17:46 신고 | PERMALINK | EDIT/DEL
이미 공개되어있습니다^^
Name
Password
Homepage
Secret
prev"" #1 next

티스토리 툴바