Legacy/Lucene 2

루씬 기본적인 검색 엔진

먼저 루씬은 참 쓰기 편하면서도 커스터마이징하기는 참 불편한 특징을 갖고 있습니다. (물론 제 수준상으로...) 그래서 루씬을 이용해서 쓰기 편하게(?) 나름대로 만들어봤습니다. 지금부터 루씬을 이용해서 기본적인 검색기를 뚝딱 만들어보겠습니다. 먼저 색인할 데이터를 다운 받습니다. [트윗 데이터] 위 파일은 JSON 형태의 트윗을 모아둔 파일로 압축을 풀면 약 45M 정도가 됩니다. 먼저 이 데이터를 원하시는 경로에 풀어둡니다. 저는 D:/tweet/ 에 압축을 풀겠습니다. 트윗을 담기 위한 객체를 만들어 둡니다. 객체 이름은 당연히 Tweet으로 하고 소스 내용은 아래와 같습니다. package kr.peopleware.lucene.model; import java.util.List; import or..

Legacy/Lucene 2012.11.06 (7)

루씬 한글 검색 엔진 제작

국내에서 루씬을 사용하는 검색 솔루션 업체가 상당히 많이 늘어나고 있습니다. 물론 분산 검색을 위해서 루씬을 포함하고 있는 Solr를 사용하는 업체도 늘어나고 있습니다. 물론 제가 루씬 검색 엔진을 제작한다고 하더라도 눈여겨볼 사람은 많지 않습니다. 단지 제가 하고 싶은건 검색 엔진의 이해가 아닌 검색 엔진의 활용 방안입니다. 검색 엔진을 이해하려면 사실 루씬의 색인 파일구조를 살펴봐야 합니다. 그러나 웬만한 실력이 아니고서야 ( 저를 포함 ) 그 어려운 소스를 뜯어서 파일을 분석해낸 후 자기 것으로 이해시키기에는 어려움이 있을 것입니다. 그래서 일단은 루씬을 이용해서 검색엔진을 만들어보고, 추후에 검색과 관련된 내용을 포스팅 할까 합니다. 제가 만들 내용은 "루씬을 이용한 실시간 분산 검색 엔진"입니다..

Legacy/Lucene 2012.11.06