티스토리 뷰

Solr 는 내장 검색 UI를 제공하는데 이를 이용해 색인결과를 테스트해 볼 수 있다.


http://localhost:8983/solr/test/browse 로 이동하면 실습과정에서 지금까지 색인한 데이터들을 확인할 수 있다.


하지만 아래 그림처럼 속도라는 키워드로 검색했을때  "세상의 속도를 따라잡고 싶다면 DO IT(HTML5 CSS3)" 라는 글이 나와야한다는 우리의 생각과는 다르게 아무것도 찾지 못했다는 결과가 나온다.



이 문제를 해결하는 방법이 바로 한글 형태소 분석기를 적용하는 것이다.


특히 한글은 어미와 조사의 사용에 의해 단어의 형태적 변형이 심하기때문에 형태소 분석기의 역할이 더 중요하다.


형태소 분석을 잘 마친 후에 색인을 하고 검색을 하게 되면 좀 더 사용자가 원하는 것에 가까운 정보를 제공할 수 있는 것이다.



실습


1. http://cafe.naver.com/korlucene 에서 한글 분석기를 다운받고 solr-5.3.0/server/solr-webapp/webapp/WEB-INF/lib 에 파일을 이동시킨다. 

( arirang-morph-1.1.0.jar, arirang.lucene-analyzer-6.2-1.1.0.jar)


2. managed-schema에 아래 코드를 추가한다.


<fieldType name="ko" class="solr.TextField"> <analyzer type="index">

<tokenizer class="org.apache.lucene.analysis.ko.KoreanTokenizerFactory"/> <filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.ClassicFilterFactory"/>
<filter class="org.apache.lucene.analysis.ko.KoreanFilterFactory"

queryMode="false" hasOrigin="true" hasCNoun="true" bigrammable="false"/> <filter class="org.apache.lucene.analysis.ko.HanjaMappingFilterFactory"/>
<filter class="org.apache.lucene.analysis.ko.PunctuationDelimitFilterFactory"

hasConcatedTerm="false"/>
<filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>

</analyzer>
<analyzer type="query">

<tokenizer class="org.apache.lucene.analysis.ko.KoreanTokenizerFactory"/>

<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.ClassicFilterFactory"/>
<filter class="org.apache.lucene.analysis.ko.KoreanFilterFactory" queryMode="true"

hasOrigin="false" hasCNoun="true" bigrammable="false"/>
<filter class="org.apache.lucene.analysis.ko.HanjaMappingFilterFactory"/> <filter class="org.apache.lucene.analysis.ko.PunctuationDelimitFilterFactory"

hasConcatedTerm="false"/>

<filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>

</analyzer> </fieldType> 


3. managed-schema에 모든 text_general을 ko 로 바꾼다. (brdtitle 또한 ko로 바꾼다.)


4. solr restart 명령어로 재시작 후 Solr Admin의 Analyzer 메뉴에서 ko 필드가 추가되었는지 확인한다.



5. Solr Admin 의 dataimport 메뉴에서 데이터를 재색인한다.


6. http://localhost:8983/solr/test/browse 에서 속도를 검색하여 다시 테스트 해본다.


'검색엔진 > Solr' 카테고리의 다른 글

4. 색인 (2) - Mysql DB 색인 ( data-import handler )  (1) 2017.02.08
3. 색인 (1) - SolrJ  (0) 2017.02.08
2. Core 생성  (0) 2017.02.08
1. Solr 설치 및 준비  (1) 2017.02.07
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
more
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함