ݺߣ

ݺߣShare a Scribd company logo
캐캐케케묵은
키워드 추출 시스템 개발기
발표자 소개
최현묵 (젤리)
Dev@git 운영
제대로 할 줄 아는 거 없음
배고픔
발표한다고 했던 거 후회중
발표에 앞서 주의사항
전 원래 그냥
서버 개발자입니다.
데이터 사이언스 그게 뭐임?
젤리 얘기는 걸러들어야 제맛!
케케묵은
키워드 추출 시스템 개발기
•왜 만들었죠?
•어떻게 만들었죠?
•검증방법
•후회되는 점
•마무리
만들게 된 사연
데이터 부트캠프를
참석하게 됨
키야 데이터에 취한다
난 다 할 수 있어!
키야 데이터에 취한다
근데 통계가 뭐에요?
난 다 할 수 있어!
이쯤에서 보는 더닝 크루거
아주 그냥 정점 찍음
내위치
마침 쓰고 있던 검색엔진에서
TF 와 DF라는 걸
추출할 수 있다고 들음
그걸로 키워드 추출할 수
있을 것 같아요.
그걸로 키워드 추출할 수
있을 것 같아요.
안돼!! 그런말 함부로 하는 거 아니야! 과거의 나 XX야!!!
그래서 만들게 되었습니
다.
어떻게 만들어요??
이제부터 케케묵은 이야기를 해봅시다.
TF - IDF
T(erm) F(requency)
하리보 젤리는 그냥 곰모
양인 골드베렌이 제일 유
명하지만, 그외에도 콜라
맛 젤리, 개구리 모양 젤
리, 베리모양 젤리, 스머
프 모양 젤리, 열대과일
맛 젤리, 복숭아맛 젤리,
달팽이 모양 젤리, 박쥐
모양 젤리 등등 다양한
젤리를 판다.
“아 배고프다.. 뭐먹지..
젤리! 뭐먹을래?”
“글쎄 아무거나 맛있는
거...”
“아 그러니까 맛있는 거
뭐...”
“아 몰라. 아무튼 맛있는
거”
왼쪽이 TF가 높다
하리보 젤리는 그냥 곰모
양인 골드베렌이 제일 유
명하지만, 그외에도 콜라
맛 젤리, 개구리 모양 젤
리, 베리모양 젤리, 스머
프 모양 젤리, 열대과일
맛 젤리, 복숭아맛 젤리,
달팽이 모양 젤리, 박쥐
모양 젤리 등등 다양한
젤리를 판다.
“아 배고파.. 뭐먹지.. 젤
리! 뭐먹을래?”
“글쎄 아무거나 맛있는
거...”
“아 그러니까 맛있는 거
뭐...”
“아 몰라. 아무튼 맛있는
거”
왼쪽이 TF가 높다
하리보 젤리는 그냥 곰모
양인 골드베렌이 제일 유
명하지만, 그외에도 콜라
맛 젤리, 개구리 모양 젤
리, 베리모양 젤리, 스머
프 모양 젤리, 열대과일
맛 젤리, 복숭아맛 젤리,
달팽이 모양 젤리, 박쥐
모양 젤리 등등 다양한
젤리를 판다.
“아 배고파.. 뭐먹지.. 젤
리! 뭐먹을래?”
“글쎄 아무거나 맛있는
거...”
“아 그러니까 맛있는 거
뭐...”
“아 몰라. 아무튼 맛있는
거”
9/33 1/18>
D(ocument) F(requncy)
하리보 젤리는 그냥
곰모양인 골드베렌이
제일 유명하지만, 그
외에도 콜라맛 젤리,
개구리 모양 젤리, 베
리모양 젤리, 스머프
모양 젤리, 열대과일
맛 젤리, 복숭아맛 젤
리, 달팽이 모양 젤리,
“아 배고파.. 뭐먹지..
젤리! 뭐먹을래?”
“글쎄 아무거나 맛있는
거...”
“아 그러니까 맛있는 거
뭐...”
“아 몰라. 아무튼 맛있
정환
바보
정환
바보
정환
바보
정환
바보
“아 배고파.. 뭐먹지..
젤리! 뭐먹을래?”
“글쎄 아무거나 맛있는
거...”
“아 그러니까 맛있는 거
뭐...”
“아 몰라. 아무튼 맛있
하리보 젤리는 그냥
곰모양인 골드베렌이
제일 유명하지만, 그
외에도 콜라맛 젤리,
개구리 모양 젤리, 베
리모양 젤리, 스머프
모양 젤리, 열대과일
맛 젤리, 복숭아맛 젤
리, 달팽이 모양 젤리,
“아 배고파.. 뭐먹지..
젤리! 뭐먹을래?”
“글쎄 아무거나 맛있는
거...”
“아 그러니까 맛있는 거
뭐...”
“아 몰라. 아무튼 맛있
정환
바보
대충 DF가 5/10라고 친다
하리보 젤리는 그냥
곰모양인 골드베렌이
제일 유명하지만, 그
외에도 콜라맛 젤리,
개구리 모양 젤리, 베
리모양 젤리, 스머프
모양 젤리, 열대과일
맛 젤리, 복숭아맛 젤
리, 달팽이 모양 젤리,
“아 배고파.. 뭐먹지..
젤리! 뭐먹을래?”
“글쎄 아무거나 맛있는
거...”
“아 그러니까 맛있는 거
뭐...”
“아 몰라. 아무튼 맛있
정환
바보
정환
바보
정환
바보
정환
바보
“아 배고파.. 뭐먹지..
젤리! 뭐먹을래?”
“글쎄 아무거나 맛있는
거...”
“아 그러니까 맛있는 거
뭐...”
“아 몰라. 아무튼 맛있
하리보 젤리는 그냥
곰모양인 골드베렌이
제일 유명하지만, 그
외에도 콜라맛 젤리,
개구리 모양 젤리, 베
리모양 젤리, 스머프
모양 젤리, 열대과일
맛 젤리, 복숭아맛 젤
리, 달팽이 모양 젤리,
“아 배고파.. 뭐먹지..
젤리! 뭐먹을래?”
“글쎄 아무거나 맛있는
거...”
“아 그러니까 맛있는 거
뭐...”
“아 몰라. 아무튼 맛있
정환
바보
1 2
3 54
사실 좀 틀린 설명..
그럼 다시 TF-IDF
하리보 젤리는 그냥 곰모양인 골드베렌이 제일
유명하지만, 그외에도 콜라맛 젤리, 개구리 모양
젤리, 베리모양 젤리, 스머프 모양 젤리, 열대과
일 맛 젤리, 복숭아맛 젤리, 달팽이 모양 젤리, 박
쥐 모양 젤리 등등 다양한 젤리를 판다.
하리보 젤리는 그냥
곰모양인 골드베렌이
제일 유명하지만, 그
외에도 콜라맛 젤리,
개구리 모양 젤리, 베
리모양 젤리, 스머프
모양 젤리, 열대과일
맛 젤리, 복숭아맛 젤
리, 달팽이 모양 젤리,
“아 배고파.. 뭐먹지..
젤리! 뭐먹을래?”
“글쎄 아무거나 맛있는
거...”
“아 그러니까 맛있는 거
뭐...”
“아 몰라. 아무튼 맛있
정환
바보
정환
바보
정환
바보
정환
바보
“아 배고파.. 뭐먹지..
젤리! 뭐먹을래?”
“글쎄 아무거나 맛있는
거...”
“아 그러니까 맛있는 거
뭐...”
“아 몰라. 아무튼 맛있
하리보 젤리는 그냥
곰모양인 골드베렌이
제일 유명하지만, 그
외에도 콜라맛 젤리,
개구리 모양 젤리, 베
리모양 젤리, 스머프
모양 젤리, 열대과일
맛 젤리, 복숭아맛 젤
리, 달팽이 모양 젤리,
“아 배고파.. 뭐먹지..
젤리! 뭐먹을래?”
“글쎄 아무거나 맛있는
거...”
“아 그러니까 맛있는 거
뭐...”
“아 몰라. 아무튼 맛있
정환
바보
1 2
3 54
9/33
5/10
9/33 * I(5/10)
TF * I(nverse)DF
9/33 * I(5/10)
9/33 * 10/5 =
0.545454554...
위 문서의 젤리
키워드 점수는
0.5454545454..
하리보 젤리는 그냥 곰모양인 골드베렌이 제일
유명하지만, 그외에도 콜라맛 젤리, 개구리 모양
젤리, 베리모양 젤리, 스머프 모양 젤리, 열대과
일 맛 젤리, 복숭아맛 젤리, 달팽이 모양 젤리, 박
쥐 모양 젤리 등등 다양한 젤리를 판다.
어때요?
참 쉽죠?
사실 여기까지는
실제로 쉽습니다.
하지만 건담이
출동하면 어떨까?
거!
담!
언!
책 서비스를 하다가 만난
건담
케케묵은 키워드 추출 개발기 (폰트 수정본)
케케묵은 키워드 추출 개발기 (폰트 수정본)
log
L(ord) O(h my) G(od)
케케묵은 키워드 추출 개발기 (폰트 수정본)
다양한 TF 가중치
수식 복사가 안되서 부득이 하게 캡처한 점 죄송합니다.
다양한 DF 가중치
대부분의 위키 문서가 그렇지만
TF-IDF 에 관한 설명은 꼭 영문위키를 참조하세요!
한국어보다 훨씬 많은 정보를 알 수 있습니다.
추천 TF-IDF
대부분의 위키 문서가 그렇지만
TF-IDF 에 관한 설명은 꼭 영문위키를 참조하세요!
한국어보다 훨씬 많은 정보를 알 수 있습니다.
유저에게 보여줄만한
키워드만 뽑기
유저에게 보여줄만한
키워드만 뽑기
정말 키워드다운(?) 단어들
노가다
올바른 표현은 아니지만 이보다 더 좋은 표현이 없었다..
이것도 어떻게 보면 기술력...
문서 전체에서
출현 횟수가 높은 단어부터
내림차순으로 정렬후
선택하여 정제
즉 사람이 직접 고른다!
형태소 분석에만 의지하기가 좀 껄끄러웠음
몇몇 단어 같지 않은 단어들..
형태소 분석이 난해한 한국어특성
내림차순으로 하는 이유는
자주 사용하는 단어 먼저 처리하기 위함
키워드를 추천에
사용할 수 있을까?
각 유저의 키워드를
뽑을 수는 없을까?
카테고리 키워드도?
유저의 키워드 기준으로
카테고리 연관성을 가지고
추천해주면?
유저(카테고리)의 키워드는
어떻게 뽑을 수 있을까?
TF-IDF 처럼 다른 유저에게
나타나지 않는
키워드를 뽑으면?
난 자전거를 좀 좋아해 내 인생이 곧 자전거야,
난 진짜 자전거 엄청 좋아해
롱보드는
타긴하는데 별로야
난 밖에서 운동할 바에
게임을 하겠어
나도 자전거 좋아해 나도 자전거 좋아! 여긴 자전거 좋아하는 사람들 많네
나도 자전거 좋아
유저들
난 자전거를 좀 좋아해 내 인생이 곧 자전거야,
난 진짜 자전거 엄청 좋아해
롱보드는
타긴하는데 별로야
난 밖에서 운동할 바에
게임을 하겠어
나도 자전거 좋아해 나도 자전거 좋아! 여긴 자전거 좋아하는 사람들 많네
나도 자전거 좋아
누가봐도 자전거 제일 좋아하는 애
난 자전거를 좀 좋아해 내 인생이 곧 자전거야,
난 진짜 자전거 엄청 좋아해
롱보드는
타긴하는데 별로야
난 밖에서 운동할 바에
게임을 하겠어
나도 자전거 좋아해 나도 자전거 좋아! 여긴 자전거 좋아하는 사람들 많네
나도 자전거 좋아
자전거 출현수
난 자전거를 좀 좋아해 내 인생이 곧 자전거야,
난 진짜 자전거 엄청 좋아해
롱보드는
타긴하는데 별로야
난 밖에서 운동할 바에
게임을 하겠어
나도 자전거 좋아해 나도 자전거 좋아! 여긴 자전거 좋아하는 사람들 많네
나도 자전거 좋아
롱보드 출현수
TF-IDF 같은 방법으로하면
출현 수가 적은 키워드가
뽑히게 됨
즉 해당
유저만의 키워드
우리가 뽑고 싶은 건
유저의 키워드
생각해보면 우린 이미
TF-IDF로 문서의 키워드를
이미 점수로 가지고 있음
그냥 유저가 가진 문서(책)의
키워드 TF-IDF를 합산하면
유저의 키워드가 나오지 않을까?
SQL로 표현하면?
개발자를 위해
SELECT SUM(score)
FROM
document_keywords
GROUP BY keyword
이때 document_keywords 는 유저가 가진 문서라고 친다.
score는 keyword의 TF-IDF
같은 방법으로
카테고리도 처리
하지만 건담이
출동하면 어떨까?
거!
담!
언!
케케묵은 키워드 추출 개발기 (폰트 수정본)
만화의 카테고리가
기동전사랑 건담?
너무 점수가 큰 기동전사
DF는 낮고 TF는 높은 경우에
는 문서하나의 키워드가 카
테고리의 키워드가 되어버림
아웃라이어에 대해서 처리해야함
그냥 기동전사를
키워드에서 빼버릴까?
그냥 기동전사를
키워드에서 빼버릴까?
만약에 다른 아웃라이어가 생기면??
보편적인 방법이 필요
이때 생각난
오디오 컴프레서
소리의 증폭을 적게 하거나
큰 소리를 줄임으로써
오디오 신호의 다이나믹 레
인지를 축소시키는 장치이다.
출처 위키백과 (오디오 컴프레서)
케케묵은 키워드 추출 개발기 (폰트 수정본)
점수를 글씨 크기로 두고
키워드를 시각화 해봅시다.
보노보노 보노보노 보노보노 보노보노
기동전사
기동전사보노보노 보노보노 보노보노
보노보노 보노보노
보노보노 보노보노 보노보노 보노보노
기동전사
기동전사
보노보노 보노보노 보노보노
보노보노 보노보노
그런데 어떻게?
그런데 어떻게?
이렇게 눌러주는 거
전에 한번 봤잖아?
또 한번
log
L(ord) O(h my) G(od)
제가 사용한 공식
sum(log(K + score))
대부분 점수가 1점 이하이기 때문에
음수가 되어버림
K(0.1 ~ 0.9) 값을 이용해 적절히 조정
하지만 카테고리에 속한
문서 수에 따라 점수가
천차만별로 차이날 수 있음
점수의 범위를 설정
사실 키워드 뽑는 건 상관 없지만,
나중에 추천엔진을 돌리기 위해 필요
100점으로 맞추고 싶다면,
합산한 최댓값을 찾은 뒤
모든 점수에 최댓값으로
나누고 그 값에 100을 곱함
score / max_score * 100
이렇게 하면 0~100 에 잘 분포된다!
이제 유저가 가진 키워드와
카테고리 키워드의 점수를 조합해
추천을 돌려줍니다!
"아 근데 저기
진짜 키워드 잘 뽑힌 건지
어떻게 확인해요?"
솔직히 전 확인을 못했요...
True / False
Positive / Negative
점쟁이가 말한게 발생하면?
True / Positive
점쟁이가 말한게 안발생하면?
False / Positive
점쟁이가 안말한게 발생하면?
False / Negative
점쟁이가 안말한게 안발생하면?
True / Negative
점쟁이가 말한게 발생하면?
True / Positive
점쟁이가 말한게 안발생하면?
False / Positive
점쟁이가 안말한게 발생하면?
False / Negative
점쟁이가 안말한게 안발생하면?
True / Negative
점쟁이가 말한게 (XNOR) 발생하면?
True / Positive
점쟁이가 말한게 (XNOR) 안발생하면?
False / Positive
점쟁이가 안말한게 (XNOR) 발생하면?
False / Negative
점쟁이가 안말한게 (XNOR) 안발생하면
True / Negative
검색했을 때 내가
찾고 싶은 게 검색이 안 된다면?
검색했을 때 내가
찾고 싶은 게 검색이 안 된다면?
False / Positive
검색했을 때 내가
찾고 싶은 게 검색이 안 된다면?
False / Positive
(NXOR)
검색했을 때 내가
찾고 싶은 게 검색이 안 된다면?
False / Positive
그럼 이걸 키워드에 적용
내게 맞는 단어가 키워드 리스트에 있으면?
True / Positive
내게 안 맞는 게 키워드 리스트에 있으면?
False / Negative
두개 가지고 정밀도를 구할 수
있다고 생각하실 수 있지만...
재현율
= (True / Positive)
------------------------------
(True / Positive) + (False / Negative)
정밀도
= (True / Positive)
------------------------------
(True / Positive) + (False / Positive)
정밀도
= (True / Positive)
------------------------------
(True / Positive) + (False / Positive)
False / Positive에 해당하는
내게 적합하지만
키워드 리스트에는 없는
키워드를 알 방법이 없음..
판단은 개인의 몫
북 스타트업
대표의
키워드
젤리의
키워드
후회되는 점
애초에 추천은
텍스트 기반으로 하지 말자
사실 유저기반으로 할만한
데이터가 적어서 어쩔수 없었지만
이걸 나중에 봤어요..
하용호님 Deview 2015 발표중
키워드를 잘 뽑아낸다 한들,
대부분 Collaboration
Filtering 이 잘 동작합니다.
예를 들어, 기술 서적을 키워드만 가지고 파악한다면,
트렌드가 지난 오래된 책들이 나올 수가 있겠죠
사실 유저데이터가 없으면 CF가 힘들어서
데이터 기반으로 하기도 했어요.
Solr 대신
Elasticsearch 썼으면..
훨씬 더 현대적인 API
반 강제적 자바...
질문
마무리
감사니다

More Related Content

케케묵은 키워드 추출 개발기 (폰트 수정본)