인터넷에 존재하는 수 많은 웹 페이지들을 수집하여 수집된 내용을 적절한 가공 과정을 거쳐 특별한 형태의 파일로 문서화하고, 검색 엔진과 같은 인터넷 정보 검색 시스템을 통해 이용자의 질의에 적합한 페이지 정보를 탐색하여 찾아내 이용자에게 제공하는 것을 의미한다. 따라서 정보 중 이용자의 질의에 맞는 검색을 해주는 것이다.
Indexer(색인모듈)은 단어 목록 (단어 발생 리스트) 기능을 하며
Retriever(검색모듈)은 색인을 사용하여 페이지의 순위를 매기는 기능을 하는 것으로 구분된다.
JRE(Java Runtime Enviroment ) : 컴파일된 자바 프로그램을 실행시킬 수 있는 자바 환경 JDK(Java Development Kit) : 자바 프로그래밍시 필요한 개발 도구 포함 (JRE+@) (참고 https://stackoverflow.com/questions/1906445/what-is-the-difference-between-jdk-and-jre Apache Tomcat : 웹 애플리케이션 서버(AWS). 웹 서버와 연동하여 실행할 수 있는 자바 환경 제공. HTTP 서버 자체 내장. Apache Lucene : 검색엔진. 자바로 개발된 정보검색 라이브러리 elastic : Lucene 기반의 Java 오픈소스 분산 검색 엔진
- 다운 https://lucene.apache.org/core/downloads.html https://www.apache.org/dyn/closer.lua/lucene/java/8.6.0/lucene-8.6.0.zip - 압축 풀어서 LuceneTest 폴더 생성 후 압축 해제한 파일을 넣고 java 파일 4개 꺼내두기 - 환경변수 해당 내용 참고
- 현재 LucenTest 폴더 상태
- cmd
javac //java 확인
//압축 풀기
jar xvf lucene-analyzers-common-8.6.0.jar
jar xvf lucene-core-8.6.0.jar
jar xvf lucene-demo-8.6.0.jar
jar xvf lucene-queryparser-8.6.0.jar
- 색인 생성
java org.apach.lucene.demo. IndexFiles -docs lucene-8.6.0 //색인 생성