elasticsearch의 기본적인 working에 대한 발표자료입니다.
특히나 logging보다는 '검색 서비스'에 포커싱된 자료이기 때문에 '한글검색' 으로 고통받으실 분들을 위한 기초 자료라 생각해주시면 감사하겠습니다.
맞지않는 정보와 오탈자 그리고 의문점이 든다면 dydwls121200@gmail.com으로 언제든지 가벼운 마음으로 메일주세요. 저 또한 성장시키는 일이기도 하니까요. 환영합니다.
12. 검색에 대한 도메인은 없고, 러닝커브가질 시간도 없는데
like search(ngram)으로 충분하다면 sphinx, AWS cloud search를
쓰세요.
러닝커브 타임이 있어도 괜찮고, 장기적으로 고도화를 할 계획이라면
ElasticSearch 추천해요.
검색경력이 수 년 가까이되고, 산전수전 겪으신 분이라면..
저 좀 알려주세요. 아니면 당근마켓의 동료가 되는건 어때요…?
30. 쇼핑몰에서 “갤럭시핸드폰” 이라 검색하면
“갤럭시”, “핸드폰” 으로 분리가 안되어서 “갤럭시핸드폰” 이라는 term을 찾게됨
31. 엄연히 “갤럭시”와 “갤럭시핸드폰”은 inverted index vector space에서는
부분집합도 뭣도 아닌 다른 term임.
때문에, “갤럭시” term이 포함된 상품이 안나오게 됨
32. term을 갖고 있는 문서들을 출력했지만, sorting은 제 멋대로다.
때문에 문서들 간에 ranking결정에 사용하는것이 바로 TF-IDF
33. Term Frequency - Inverse Document Frequency
TF - 문서 당 특정 단어의 빈도가 높으면 해당 단어는 문서를 대표하는 단어라 생각한다
IDF - 문서군 사이에서 자주 등장(DF)하는 단어면 중요하지 않은단어기 때문에 inverse 값을
이용한다.