ݺߣ

ݺߣShare a Scribd company logo
SearchinginCooperativePatentClassification:
Comparisonbetweenkeywordandconcept-basedsearch
Author
TizianoMontecchi,
DavideRusso
(DepartmentofIndustrialEngineering,
UniversityofBergamo,Italy)
YingLiu
(DepartmentofMechanicalEngineering,
NationalUniversityofSingapore,Singapore)
14’논문소개세미나
Contents
• Motivation&MainProblem
• PriorWorks
• MainIdea:KOM
• CaseStudy
• Conclusion
Motivation
Patent(특허)
- 새로운것의발명으로인해받을수있는권리
- 기술의산업화지표로사용가능
“Patentdatabase”
- 방대한양의기술정보내재
→전략적지식소스로사용가능
(기술의uniqueness를이용해신제품개발,예측,기술이전,문제해결등
의분야에적용가능)
- 실제수백만개의문서를갖고있으며,매해그양이급격히증가
Motivation
- Patent의중요성이커짐에따라,기업들은특허전략을
수립해기업경영에사용
- 특허DB는굉장히방대(수백만개의특허존재),이를
일일이찾아가며관계된특허를찾는일은매우어렵다
- 특허가능성을조사하는경우에는,단한개의놓친특허
만존재하여도실패하게된다.
그러나, 아직까지 100%완벽한 Patent Search는 없다!
BackGround
PatentStrategy(특허전략)
- 강한특허를통한라이센싱수익을내는혹은방어하는것
ex)SAMSUNGvsAPPLE
- 특허로인한수익창출혹은손해를방지하기위한행위
- 특허전략들은ʰ(ʲٱԳٰ)를기반으롵Ӱ음
Main Problem
지금까지의PatentSearch는주로Keyword based Search
(특허내의특정keyword를조사하여검색하는것)
1. 특허Description에있어detaillevel이다르다
• 같은개념도다르게표현하기도함(추상적이거나상세하거나)
• 저자들이서로다른필드에서왔기때문일수도있고,특허청구
범위를넓히기위해전략적으로모호하거나일관되지않은용어를
사용하기때문일수도있다.
2. 정확하지않은terminology
• 새로운기술을발명하는경우새로운용어를만들기도한다
• 과하게축약하의logical한의미가반영안되는경우도존재
3. Officiallanguage가다르다
• 특허작성시사용된언어가다르면,부정확하게번역이될수도있다
그러나,KeywordBasedSearch는몇가지단점존재!
Main Problem
KeywordBasedSearch의이러한문제를해결하기위해
새로운방식의Search가필요!
PatentClassification의등장
BackGround
PatentClassification(특허분류체계) ?
- 특허에적용된다양한기술들을분류체계를통해정렬
- 비슷한성격의발명이체계안에서같은그룹화
ex)특허 분류 체계: 개인 및 가정 문서와 관련된 IPC 코드의 예
A41 의류
A41F 의복 잠금 장치
A43 신발
A43C 잠금 장치, 레이스, 부착물
A44 재봉 도구, 장신구
A44B 버튼, 핀, 버클, 슬라이드 잠금 장치 등
http://www.kipris.or.kr/kpat/remocon/frame.jsp?kind=0&start=IPC_DETAIL&IPC_CODE=H04L7/00
정확하게 정의된 내용을 빠르게 검색하여 안정적인 결과를
얻고, 새로운 주제를 쉽게 분류하는 것이 모든 특허 체계의
궁극적인 목적
BackGround
BackGround
http://worldwide.espacenet.com/classification#!/CPC=G06F17/30864
Ex)
http://www.google.com/patents/WO2010068068A2?cl=ko
BackGround
PC를찾으면,원하는 특허를찾을 수 있으나,
그양이너무많다!
- 물론찾을수있지만,굉장히Timeconsuming!
- 찾는사람의경험에굉장히의존도큼
자동화 된검색 툴 필요!
- Valkonenandnykanene:Keyword based.User-toolinteraction
But,IPC의일부특허에대해서만적용가능
- EPO&WIPO의tool:Keywordbased.MostGeneral.
But,LowRecall
- WIPO의tool(IPCCAT):useNLP
실제 정답
(by Gold Standard)
True False
실험 결과
Positive True Positive
False Positive
(Type1 error)
Negative
True Negative
(Type2 error)
False Negative
** Recall & Precision
* Recall(재현율) =
𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡 𝐷𝑜𝑐 ∩ 𝑅𝑒𝑡𝑟𝑖𝑣𝑒𝑑 𝐷𝑜𝑐
𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡 𝐷𝑜𝑐𝑢𝑚𝑒𝑛𝑡
=
𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒
𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒+𝑇𝑟𝑢𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒
실제 정답인 것들 중
얼마만큼을 정답이라
판단했는가!
* Precision(정밀도) =
𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡 𝐷𝑜𝑐 ∩ 𝑅𝑒𝑡𝑟𝑖𝑣𝑒𝑑 𝐷𝑜𝑐
𝑅𝑒𝑡𝑟𝑒𝑖𝑣𝑒𝑑 𝐷𝑜𝑐𝑢𝑚𝑒𝑛𝑡
=
𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒
𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒+𝐹𝑎𝑙𝑠𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒
정답이라 판단한 것
중, 실제 얼마 만큼이
정답인가!
Prior Work
PCDescription찾는 tool
- TermSearch&IPCSearch
- PCdescription을조사하여관
련된PCcode를Return
- Index의Catchword도조사
- 그러나User가입력한word
와완벽하게일치해야한다.
- 따라서아무결과가나오지
않는경우가잦다
Figure.TermSearch
Prior Work
PatentDocument찾는 tool
- ClassificationSearch(EPO)
- CPC에서동작
- 10개이하의keyword만query에
조합가능
- Full-text가아닌abstract만조사
- PatentScope(WIPO)
- IPC에서만동작
- Full-text나다른위치도동작
- Sub-classlevel에서상위10개를
제시
- EPOtool보다덜정확하여Query
stemming을통해보완(recall&
precision조절)
Figure.PatentScope
Prior Work
PatentDocument찾는 tool
- 앞선두tool은Precision의증가를
위해모두가장빈도높은PC를결과
로제공
- 이렇게되면많은관련된PC를찾고
싶은경우에는에러일수있다.
- 사실PC는아주적은수의특허문서
만포함하고있어도,관련된PC인데,
이런경우는상대적으로수가적으
니결과에나타나지않음.
KOM: A concept basedsearchtool
Conceptbased?
- Userquery뒤에숨겨진concept을추출하여초기 query의
keyword만으로matching하지않음!
- Knowledgebase를통해initialquery를expand
- 그러나,expand시recall은증가하나,precision은감소될것
- 따라서,적절하지않은patent걸러내는모듈이필요
- 그것이바로KOM(KnowledgeOrganizingModule)
KOM: A concept basedsearchtool
KOM(KnowledgeOrganizingModule)
- CPC,IPC등등모든classification체계에서사용가능
- Term의개수제한없음
- 결과는Class~sub-group까지다가능
KOM: A concept basedsearchtool
KOM: A concept basedsearchtool
1)SemanticExpansionofthe query
- ExpandInitialQuery
- Usingpre-builtKnowledge-base(e.g.사전,시소러스,온톨로지등)
- Synonym,Correlatedterms,Morphological,Syntacticvariant
KOM: A concept basedsearchtool
2)Booleanpatentsearch
- Canchoosefieldtosearch
- Full-textsearchmaximizetherecall
KOM: A concept basedsearchtool
3)Tagger
- ToclarifythePolysemyofword
- UsingstanfordPOStagger
led(Noun) vs led(Verb)
KOM: A concept basedsearchtool
4)Parser
- Recognizeroleofwords
- Wordsequencestofindcannotberelatedinsomedocuments
- UsingStanfordparser
KOM: A concept basedsearchtool
5)CPCcodeExtraction
- Finddeepestlevel
- Canchooseanyleveltorepresentfromdeepestlevel
Case study
Conclusion
- CPC에서conceptbased와keywordbasedtool실험해봄
- 이론적으로현재의시스템들은recall은100%가능하나,
keyword를based한것만으로는불가능
- 이는앞서말한여러가지언어적특징때문
- 따라서conceptbased필요
- Casestudy에서도keywordbase로한나머지세시스템을다합
해도KOM의52%밖에커버하지못함

More Related Content

Searching in cooperative patent classification 발표