狠狠撸

狠狠撸Share a Scribd company logo
基於语意网的搜寻引擎 自動分類與索引期末報告   R96126013  洪承理 2008/01/17
大綱 1. 序言 2. 語意網的階層架構 3. 語意網的組織 4. 傳統搜尋引擎 5. 基於语意网的搜寻引擎 6. 結論
序言 當前的網路只是一種載體 電腦無法理解 必須發展機器可讀的結構 充分運用電腦的計算能力 (Berners-Lee, Hendler, & Lassila, 2001)
傳統的 HTML 傳統的 HTML 有限的表達能力 Meta-tag
傳統的 HTML
語意網的階層架構 http://www.w3.org/2001/09/06-ecdl/slide17-0.html
語意網的階層架構 UNICODE :處理當前世界上所有的語言。 URI :標示單一資源,目前常見的 Xml+NameSpace+Xmlschema  表現資料的內容與結構 無法表達機器可理解的語意 RDF+RDFschema:RDF  描述網路資源  RDF Schema 使用一種機器可以理解的體系來定義描述資源的辭彙。
語意網的階層 -XML XML(eXtensible Markup language) 以 xml schema  定義元素內容 優點 將樣式 (layout) 與內容 (content) 分離 使用者可以自訂標籤 缺點 標籤的結構視應用而定 無法取得標籤內的語意
語意網的階層 -XML
語意網的階層 -RDF RDF- Resource Description Framework 基於 XML 的資料表達模式 概念 資源 : 唯一識別物件 (URI) 性質 : 資源之間的關係 敘述 : 由資源 - 性質 - 值所構成 http://www.w3.org/Home/Lassila Ora Lassila creator
語意網的階層 - 未經 RDF 組織的資源
語意網的階層 - 經過 RDF 組織過後的資源
語意網的階層 -Ontology 構成相關領域詞彙的基本術語和關係。 1. 主題內的概念及子概念 2.  概念間的關係與限制 對共享概念的顯性說明 不同標示的相通概念 功能 分類 分析領域知識的結構 統一的術語實現共享的功能
語意網的階層 -Ontology
傳統搜尋引擎 - 架構 Spider 搜尋及更新網路資源 Indexer 分析資訊,選擇索引詞,已倒置檔產生索引檔 Searcher 將使用者查詢與資料庫索引進行比對,並檢出相關的資訊 使用者介面 使用者與搜尋引擎間的介面 輸入查詢值 顯示檢索結果 提供相關回饋
傳統搜尋引擎不適於語意網搜尋 關鍵字檢索的侷限性 使用者需求表達的困難 無法理解自然語言 無法理解字與字之間的關係 準確率偏低,多檢索到不相關的文獻  以字的變形做為索引詞 忽略標記  僅依賴於查詢詞與文件集的相關度
傳統搜尋引擎不適於語意網搜尋 當前的檢索技術並不適合索引及檢索語意標記 當前的檢索技術無法利用語意標記加強文字檢索 沒有正式的標準可以處理同時擁有 HTML 語言及語意標記的文件
基於语意网的搜寻引擎 目標 對查詢進行語意理解 對資料庫進行語意理解  功能 對於語意標記進行索引 支援檢索以及推論過程。 以單字、語意標記做為索引詞。 依賴現有的搜尋引擎 推論與檢索必須緊密結合
基於语意网的搜寻引擎 功能 標籤檢索:提供 XML 的標籤檢索。 支援隱性資訊的查詢:傳統搜尋引擎無法處理 FLASH 、 PDF 等檔案格式的內容,基於 XML 的結構基礎可以描述任何形式的資源並檢索之。 過濾以關鍵字優化的網頁 (SEO) 。 分類顯示檢索結果
基於语意网的搜寻引擎結構
基於语意网的搜寻引擎結構 輸入及對映本體 將不同本體但是相關概念做連結 網路爬梳 (SPIDER) 搜尋並下載網路上的資訊 索引 將下載的資訊以字為單元做索引 本體索引 索引詞與本體中的概念連結 前端 使用者可以用關鍵字或本體概念檢索
基於语意网的搜寻引擎 - 類型 Swangler 對傳統的  RDF 文件加注語意標記 由傳統搜索引擎索引。 Swoogle  基於 SPIDER 的檢索系統。 儲存語意網文件的元資料
基於语意网的搜寻引擎 - Swangler
基於语意网的搜寻引擎 -Swangler 1. 提出語意查詢;提出語意編碼的查詢 2. 推論引擎運作:有限度的語意延伸, 產生用於檢索的語意標記描述 3. 將語意標記轉換成普通的文字 4. 將文字查詢傳到多個傳統網路搜尋引擎 5. 傳統搜尋引擎產生排序的網頁,並且由推論引擎作出數量上的刪減 6. 推論引擎將結果做出過濾 7. 傳回至使用者介面。
基於语意网的搜寻引擎 -Swoogle
基於语意网的搜寻引擎 -Swoogle 1. 語意網文件探索:檢索並更新潛在的語意文件 2. 後設資料建構:製作快取,並基於語法與語意描述語意網文件 3. 資料分析:以語意網文件快取以及後設資料分析語意文件,如分類、排名、索引 4. 介面:提供使用者及代理人檢索
基於语意网的搜寻引擎 -Swoogle 檢索語意網文件  基於 GOOGLE 檢索服務的 crawler 以附檔名作為限制 ( 如 RSS 、 RDF) Focused Crawler( 專注爬梳 ) , 以既有的語意網文件分析節點。 建構元資料: 分析文件的語言特徵、 RDF 統計、知識本體標註
基於语意网的搜寻引擎 -Swoogle 資料分析 分析語意網文件彼此之間的關係 延伸、輸入、前一版本 給予排名 Rational Random Surfer 分析語意文件節點以及連結的關係  索引及檢索  SIRE  N-gram 及單字的檢索  使用 TF/IDF 餘弦模型計算相似度
基於语意网的搜寻引擎 -Swoogle http://swoogle.umbc.edu/
基於语意网的搜寻引擎 -Swoogle
基於语意网的搜寻引擎 -Swoogle
基於语意网的搜寻引擎 -Swoogle
基於语意网的搜寻引擎 -Swoogle
結論 語意網文件數量與日俱增,雖然其本身擁有良好的結構,但仍必須建立檢索機制才能有效的取用。 研究成果建立在實驗室的測試集 傳統的關鍵字檢索不適於語意網檢索 利用語意網的良好結構可以有效加強檢索效能
END
參考文獻 Berners-Lee, T., Hendler, J., & Lassila, O. (2001). The semantic Web.  Scientific American, 284 (5), 28-37. Ding, L., Finin, T., Joshi, A., Pan, R., Cost, R. S., Peng, Y., et al. (2004). Swoogle: A Search and Metadata Engine for the Semantic Web.  Proceedings of the Thirteenth ACM Conference on Information and Knowledge Management . Ding, L., Finin, T., Joshi, A., Peng, Y., Pan, R., & Reddivari, P. (2005). Search on the Semantic Web.  Computer, 38 (10), 62-69. Finin, T., Mayfield, J., Joshi, A., Cost, R. S., & Fink, C. (2005). Information Retrieval and the Semantic Web.  System Sciences, 2005. HICSS'05. Proceedings of the 38th Annual Hawaii International Conference on , 113a-113a. Grigoris Antoniou, F. v. H. (2006).  語意網技術導論   ( 初版  ed.).  台北市 :  碁峰資訊 . K?hler, J., Philippi, S., Specht, M., & Rüegg, A. (2006). Ontology based text indexing and querying for the semantic web.  Knowledge-Based Systems, 19 (8), 744-754. Madalli, D. P. (2006). ONTOLOGIES AS KNOWLEDGE STRUCTURES FOR SEMANTIC RETRIEVAL.  Information Studies, 12 (4), 205-212. Mayfield, J., & Finin, T. (2003). Information retrieval on the Semantic Web: Integrating inference and retrieval.  SIGIR Workshop on the Semantic Web, Toronto, 1 . Shah, U., Finin, T., & Joshi, A. (2002). Information retrieval on the semantic web.  Proceedings of the eleventh international conference on Information and knowledge management , 461-468. Yufei, L., Yuan, W., & Xiaotao, H. (2007). A Relation-Based Search Engine in Semantic Web,  IEEE Transactions on Knowledge & Data Engineering  (Vol. 19, pp. 273-281).
參考文獻 石翌軼 ,  宋自林 , &  尹康銀 . (2006).  一種基於語義的 Web 資料搜索引擎方法研究 .  山東大學學報 ( 理學版 ) (03). 江克勤 ,  張玉州 , &  王一賓 . (2007).  基於語義的 Web 資訊檢索 .  電腦技術與發展 (01). 徐瑩 ,  徐福緣 , &  李生琦 . (2006).  基於語義的智慧檢索在供需網中的應用 .  上海理工大學學報 (03). 曹二堂 , &  劉玉林 . (2006).  一種基於語義理解的元搜索引擎的研究 .  電腦工程 (07). 虞為 ,  曹加恒 ,  曾承 ,  黃敏 , &  陳俊鵬 . (2007).  基於語義索引詞的語義網資訊檢索模型 .  電腦工程 (03). 竇玉萌 , &  王孟龍 . (2006).  面向語義 Web 的搜索引擎構想 .  情報探索 (07). 羅慶雲 , &  趙巾幗 . (2007).  語義化 Web 的理論基礎與技術基礎 .  甘肅聯合大學學報 ( 自然科學版 ) (05).
Ad

Recommended

20141018_OD_meetup#3
20141018_OD_meetup#3
Dongpo Deng
?
关联数据础产肠与近年进展
关联数据础产肠与近年进展
Shanghai Library
?
慈濟大學/FHIR 快速掃描/DSTU3 版本
慈濟大學/FHIR 快速掃描/DSTU3 版本
Lorex L. Yang
?
Linked data: What for and How to
Linked data: What for and How to
Shanghai Library
?
知识管理过去现在未来
知识管理过去现在未来
Weng Wallace
?
长荣大学/资料库系统初探
长荣大学/资料库系统初探
Lorex L. Yang
?
语义互操作与关联数据
语义互操作与关联数据
Shanghai Library
?
腾讯大讲堂25 公司级搜索托管平台介绍
腾讯大讲堂25 公司级搜索托管平台介绍
areyouok
?
Restful
Restful
medcl
?
资源探索服务之功能评估指标
资源探索服务之功能评估指标
皓仁 柯
?
链结资料在图书馆的应用
链结资料在图书馆的应用
皓仁 柯
?
狈世代情报收集术
狈世代情报收集术
基欽 劉
?
第五章-4
第五章-4
jxhtq
?
什么是搁贰厂罢风格应用
什么是搁贰厂罢风格应用
Tony Deng
?
計算機概論 (2)有音樂
計算機概論 (2)有音樂
曲肯 余
?
計算機概論 (2)
計算機概論 (2)
曲肯 余
?
计算机概论狈别飞
计算机概论狈别飞
曲肯 余
?
MBA (China East) Library Orientation 2016
MBA (China East) Library Orientation 2016
HKBU Library
?
理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者
理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者
AIMS (Agricultural Information Management Standards)
?
资讯组织第八章
资讯组织第八章
maolins
?
JSON-lD
JSON-lD
CQD
?
MBA (Shenzhen Class) Library Orientation 2017
MBA (Shenzhen Class) Library Orientation 2017
HKBU Library
?
用互相关联的数据创建超级数据库
用互相关联的数据创建超级数据库
Stephen Wang
?
搜索引擎技术介绍
搜索引擎技术介绍
bigqiang zou
?
Json ld 簡介
Json ld 簡介
bobo52310
?
semantic web and integration of library recources
semantic web and integration of library recources
chocolatehuanghai
?
NoSQL sharing
NoSQL sharing
Andy Cheng
?
溯古追今看未來 – 台灣圖書館資訊系統與數位化
溯古追今看未來 – 台灣圖書館資訊系統與數位化
皓仁 柯
?
全文搜寻引擎的进阶实作与应用
全文搜寻引擎的进阶实作与应用
建興 王
?
深入淺出 autocomplete
深入淺出 autocomplete
Mu Chun Wang
?

More Related Content

What's hot (20)

Restful
Restful
medcl
?
资源探索服务之功能评估指标
资源探索服务之功能评估指标
皓仁 柯
?
链结资料在图书馆的应用
链结资料在图书馆的应用
皓仁 柯
?
狈世代情报收集术
狈世代情报收集术
基欽 劉
?
第五章-4
第五章-4
jxhtq
?
什么是搁贰厂罢风格应用
什么是搁贰厂罢风格应用
Tony Deng
?
計算機概論 (2)有音樂
計算機概論 (2)有音樂
曲肯 余
?
計算機概論 (2)
計算機概論 (2)
曲肯 余
?
计算机概论狈别飞
计算机概论狈别飞
曲肯 余
?
MBA (China East) Library Orientation 2016
MBA (China East) Library Orientation 2016
HKBU Library
?
理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者
理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者
AIMS (Agricultural Information Management Standards)
?
资讯组织第八章
资讯组织第八章
maolins
?
JSON-lD
JSON-lD
CQD
?
MBA (Shenzhen Class) Library Orientation 2017
MBA (Shenzhen Class) Library Orientation 2017
HKBU Library
?
用互相关联的数据创建超级数据库
用互相关联的数据创建超级数据库
Stephen Wang
?
搜索引擎技术介绍
搜索引擎技术介绍
bigqiang zou
?
Json ld 簡介
Json ld 簡介
bobo52310
?
semantic web and integration of library recources
semantic web and integration of library recources
chocolatehuanghai
?
NoSQL sharing
NoSQL sharing
Andy Cheng
?
溯古追今看未來 – 台灣圖書館資訊系統與數位化
溯古追今看未來 – 台灣圖書館資訊系統與數位化
皓仁 柯
?
Restful
Restful
medcl
?
资源探索服务之功能评估指标
资源探索服务之功能评估指标
皓仁 柯
?
链结资料在图书馆的应用
链结资料在图书馆的应用
皓仁 柯
?
狈世代情报收集术
狈世代情报收集术
基欽 劉
?
第五章-4
第五章-4
jxhtq
?
什么是搁贰厂罢风格应用
什么是搁贰厂罢风格应用
Tony Deng
?
計算機概論 (2)有音樂
計算機概論 (2)有音樂
曲肯 余
?
計算機概論 (2)
計算機概論 (2)
曲肯 余
?
计算机概论狈别飞
计算机概论狈别飞
曲肯 余
?
MBA (China East) Library Orientation 2016
MBA (China East) Library Orientation 2016
HKBU Library
?
资讯组织第八章
资讯组织第八章
maolins
?
JSON-lD
JSON-lD
CQD
?
MBA (Shenzhen Class) Library Orientation 2017
MBA (Shenzhen Class) Library Orientation 2017
HKBU Library
?
用互相关联的数据创建超级数据库
用互相关联的数据创建超级数据库
Stephen Wang
?
搜索引擎技术介绍
搜索引擎技术介绍
bigqiang zou
?
semantic web and integration of library recources
semantic web and integration of library recources
chocolatehuanghai
?
溯古追今看未來 – 台灣圖書館資訊系統與數位化
溯古追今看未來 – 台灣圖書館資訊系統與數位化
皓仁 柯
?

Similar to 基於语意网的搜寻引擎 (20)

全文搜寻引擎的进阶实作与应用
全文搜寻引擎的进阶实作与应用
建興 王
?
深入淺出 autocomplete
深入淺出 autocomplete
Mu Chun Wang
?
Java 的開放原碼全文搜尋技術 - Lucene
Java 的開放原碼全文搜尋技術 - Lucene
建興 王
?
ElasticSearch Introduction
ElasticSearch Introduction
TsungWei Hu
?
Introduction: Semantic web (20120521)
Introduction: Semantic web (20120521)
Charles (XXC) Chen
?
蝉肠谤补辫测+蝉辫丑颈苍虫搭建搜索引擎
蝉肠谤补辫测+蝉辫丑颈苍虫搭建搜索引擎
Ping Yin
?
現代研究需要現代手段:用知識管理和AI輕鬆做研究! Part 1 - 南藝大 - 2024.pdf
現代研究需要現代手段:用知識管理和AI輕鬆做研究! Part 1 - 南藝大 - 2024.pdf
Yung-Ting Chen
?
Elasticsearch 簡介
Elasticsearch 簡介
Jui An Huang (黃瑞安)
?
Web searching
Web searching
fongyun
?
Python in word cloud
Python in word cloud
FEG
?
Elastic stack day-1
Elastic stack day-1
YI-CHING WU
?
臺灣地方議會議事錄總庫介紹 20111214
臺灣地方議會議事錄總庫介紹 20111214
uunurnum
?
Tlcj manual 20111214
Tlcj manual 20111214
uunurnum
?
中文发现在澳科大实用性分析
中文发现在澳科大实用性分析
Macau University of Science and Technology
?
The Cranfield Tests On Index Language Devices
The Cranfield Tests On Index Language Devices
Frank Chou
?
骋辞辞驳濒别的搜寻方式与网页设计注意事项
骋辞辞驳濒别的搜寻方式与网页设计注意事项
Hector Lin
?
Information Retrieval
Information Retrieval
yxyx3258
?
尝耻肠别苍别漫谈
尝耻肠别苍别漫谈
Zek Chang
?
尝耻肠别苍别漫谈
尝耻肠别苍别漫谈
Zek Chang
?
滨谤作业991015
滨谤作业991015
Athena Chien
?
全文搜寻引擎的进阶实作与应用
全文搜寻引擎的进阶实作与应用
建興 王
?
深入淺出 autocomplete
深入淺出 autocomplete
Mu Chun Wang
?
Java 的開放原碼全文搜尋技術 - Lucene
Java 的開放原碼全文搜尋技術 - Lucene
建興 王
?
ElasticSearch Introduction
ElasticSearch Introduction
TsungWei Hu
?
Introduction: Semantic web (20120521)
Introduction: Semantic web (20120521)
Charles (XXC) Chen
?
蝉肠谤补辫测+蝉辫丑颈苍虫搭建搜索引擎
蝉肠谤补辫测+蝉辫丑颈苍虫搭建搜索引擎
Ping Yin
?
現代研究需要現代手段:用知識管理和AI輕鬆做研究! Part 1 - 南藝大 - 2024.pdf
現代研究需要現代手段:用知識管理和AI輕鬆做研究! Part 1 - 南藝大 - 2024.pdf
Yung-Ting Chen
?
Web searching
Web searching
fongyun
?
Python in word cloud
Python in word cloud
FEG
?
Elastic stack day-1
Elastic stack day-1
YI-CHING WU
?
臺灣地方議會議事錄總庫介紹 20111214
臺灣地方議會議事錄總庫介紹 20111214
uunurnum
?
Tlcj manual 20111214
Tlcj manual 20111214
uunurnum
?
The Cranfield Tests On Index Language Devices
The Cranfield Tests On Index Language Devices
Frank Chou
?
骋辞辞驳濒别的搜寻方式与网页设计注意事项
骋辞辞驳濒别的搜寻方式与网页设计注意事项
Hector Lin
?
Information Retrieval
Information Retrieval
yxyx3258
?
尝耻肠别苍别漫谈
尝耻肠别苍别漫谈
Zek Chang
?
尝耻肠别苍别漫谈
尝耻肠别苍别漫谈
Zek Chang
?
Ad

基於语意网的搜寻引擎