狠狠撸

狠狠撸Share a Scribd company logo
如何自动建构社会标签中的语义
关系?
三人行语义沙龙,上海,2017.8.19
董行 (Hang)
(西交)利物浦大学计算机系博士生
导师: Wei Wang, Frans Coenen, Kaizhu Huang (之前是 Kevin Kung Fung Yuen)
从社交媒体数据中提取语义关系
? 语义网
? 社会标签: 用户组织网络资源
(相比传统主题词表, 词义模糊; 缺乏控制)
截图自: [1] https://www.zhihu.com/question/63444484/answer/216192705; [2] https://movielens.org/movies/356; [3]
https://movie.douban.com/tag/%E7%89%9B%E9%80%BC
知识结构: 从低语义到高语义
低语义
高语义
社会标签 / 大众分类法社会标签 / 大众分类法
术语 / 概念列表术语 / 概念列表
概念层级概念层级
分类法分类法
本体本体
图片改编自: R. R. Souza, D. Tudhope, and M. B. Almeida,
“Towards a taxonomy of KOS: Dimensions for classifying
Knowledge Organization Systems,” 2012.
本体学习 Ontology learning
? 建立类似分类法的知识
结构需要大量的人力和
时间
? 从自然语言文本中自动
化或者半自动化地建立
本体
? 社交网络中产生的新语
言往往不被现有的分类
体系收入,为本体学习
提供了新的需求和素材
图片改编自 from the Figure 1 in Paul Buitelaar, Philipp Cimiano, and Bernardo Magnini:
‘Ontology Learning from Text: An Overview’, 2003
建立
关系
抽取
概念
情报学中语义关系的种类
图片改编自: Stock, W. G. (2010). Concepts and semantic relations in information science. Journal of the Association for
Information Science and Technology, 61(10), 1951-1969.
横向组合关系 纵向聚合关系
等价关系
层级关系
关联关系
上下位关系
部分-整体关系 实例
语义关系
概念抽取 Concept Extraction
? 词型: 通过词型来归一化
? 词义: 同义词的提取与合并; 多义词的词义消歧 (聚类)
? 外部资源: 匹配词到其他的词汇资源,比如维基百科
概念抽取: 词型归一化
Dong, H., Wang, W., & Coenen, F. (2017). Deriving Dynamic Knowledge from Academic Social Tagging Data: A
Novel Research Direction. In iConference 2017 Proceedings (pp. 661-666). https://doi.org/10.9776/17313
词表示: 用向量的方式表示标签
? 词-词向量,向量的维度是词汇数量
? 词-资源向量,向量的维度是资源数量
? 词-用户向量,向量的维度是用户数量
? 潜在语义表示 LSI,可自行设定向量维度
? 主题向量: LDA Topic vector,可自行设定向量维度
? 词嵌入: word2vec ,可自行设定向量维度,需要大量语料
R1 R2 R3
news 1 0 0
Web2.0 1 1 1
knowledge 0 0 1
概念抽取: 词聚类
将词表示成资源的向量,并进行降维
采用余弦距离计算相似度
使用分层聚类算法
概念抽取:语义匹配
? 将标签匹配到现有的外部词表中
? 匹配到WordNet: 仅49%的标签可从语义上匹配到WordNet中 (Andrew, Pane &
Zaihrayeu, 2011)
? 匹配到Wikipedia (Joorabchi, English, Mahdi, 2015)
? 匹配到以Dbpedia为主的
Linked Open Data Cloud
(García-Silva et al., 2015)
关系的形成 Relation Learning
H. Dong, W. Wang and H. N. Liang, "Learning Structured Knowledge from Social Tagging Data: A Critical Review of Methods and Techniques," 2015 IEEE
International Conference on Smart City/SocialCom/SustainCom (SmartCity), Chengdu, 2015, pp. 307-314.
从标签中自动建立层级关系的主要方法
? 基于一定规则的方法
? 社会网络分析图中心性的方法 (Heymann, 2006)
? 利用标签对应资源或用户的集合的包含度的方法 (Mika, 2005)
? 基于语义匹配的方法
? 匹配到Dbpedia, WordNet, ConceptNet, Yago, ACM category, MESH…
(Strohmaier et al., 2012; García-Silva et al., 2015)
? 机器学习方法
? 无监督方法: 分层聚类 (Strohmaier et al., 2012; Zhou et al., 2007)
? 有监督方法: 提取特征进行二元分类 (Rêgo et al., 2015)
方法1: 基于社会网络分析的方法 (Heymann, 2006)
? 设想: 在标签相似度图中,有一个潜在的分类体系;
中心性更高的标签,与其它标签连接更紧密的标签,含义更为宽泛
? 建立标签相似度无向图,将标签按照度中心性降序排列
? 从中心性最高的标签开始,依次添加到新的有向图中,将标签与图中的节点
依次比较,若相似度大于某阈值,则列为该节点的下位类。
? 优点: 方法容易实现,不依赖外部资源
? 缺点: 建立的联系不完全正确,语义关系不明确
数据集: Bibsonomy dataset, 时间 2003-2015,
包括 3794882 个标注, 868015 个资源,
283858 个标签, 11103 个用户.
语义沙龙:如何自动建构社会标签中的语义关系
方法2: 基于语义匹配的方法
DBpedia concept pairs Matched tag concept pairs (positive data)
匹配机器学习下的类目
优点: 匹配到的关系有明确的语义, skos: broader, dct:subject
缺点: 依赖外部资源,受限于外部资源
方法3: 基于主题建模的方法(实验中)
设想:
[1] 具有层次关系的标签必须有一定的相似度 ( > p, p = 0.1)。
[2] 更显著地分布在多个主题的词汇,在含义上更为宽泛。
[3] 标签之间的层次关系与 边缘概率 p(A|B) 和 p(B|A) 相关。
基于主题模型的二元分类方法(实验中)
标签组织在系统中的运用
? 完善标签的导航,
方便浏览资源
? 案例: 知乎、
StackOverflow
截图自:
https://www.zhihu.com/topic/19
551606/hot
截图自: [1]
https://stackoverflo
w.com/tags
[2]
https://stackoverflo
w.com/tags/java/inf
o
? 方便个性化的
检索和推荐
(案例: ResearchGate
和豆瓣)
截图自: https://www.researchgate.net/search
截图自:[1]
https://book.douban.com/tag/%E8%AF%AD%E4%B
9%89%E7%BD%91
[2] https://book.douban.com/tag/?view=cloud
总结
? Web 2.0时代的语义网建立在社交网络中用户贡献的大量数据上。
? 对巨量的社会标签进行有效组织依赖机器学习、自然语言处理、
社会网络分析等方法。
? 从社会标签中抽取的概念和关系,可以用于完善系统的资源搜索、
发现、推荐等功能。
参考文献
? Dong, H., Wang, W., & Liang, H. N. (2015, December). Learning Structured Knowledge from Social Tagging Data: A Critical Review of Methods and
Techniques. In Smart City/SocialCom/SustainCom (SmartCity), 2015 IEEE International Conference on (pp. 307-314). IEEE.
? Souza, R. R., Tudhope, D., & Almeida, M. B. (2012). Towards a taxonomy of KOS: Dimensions for classifying Knowledge Organization Systems. Knowledge
organization, 39(3), 179-192. Paul Buitelaar, Philipp Cimiano, and Bernardo Magnini: ‘Ontology Learning from Text: An Overview’, 2003
? Stock, W. G. (2010). Concepts and semantic relations in information science. Journal of the Association for Information Science and
Technology, 61(10), 1951-1969.
? Dong, H., Wang, W., & Coenen, F. (2017). Deriving Dynamic Knowledge from Academic Social Tagging Data: A Novel Research Direction. In iConference
2017 Proceedings (pp. 661-666). https://doi.org/10.9776/17313
? Andrews, P., Pane, J., & Zaihrayeu, I. (2011). Semantic disambiguation in folksonomy: a case study. In Advanced language technologies for digital
libraries (pp. 114-134). Springer, Berlin, Heidelberg.
? Joorabchi, A., English, M., & Mahdi, A. E. (2015). Automatic mapping of user tags to Wikipedia concepts: The case of a Q&A website – StackOverflow.
Journal of Information Science. doi:10.1177/0165551515586669
? García-Silva, A., García-Castro, L. J., García, A., & Corcho, O. (2015). Building Domain Ontologies Out of Folksonomies and Linked Data. International
Journal on Artificial Intelligence Tools, 24(2).
? Heymann, P., & Garcia-Molina, H. (2006). Collaborative Creation of Communal Hierarchical Taxonomies in Social Tagging Systems. Retrieved from
http://ilpubs.stanford.edu:8090/775/
? Strohmaier, M., Helic, D., Benz, D., K, C., #246, rner, & Kern, R. (2012). Evaluation of Folksonomy Induction Algorithms. ACM Trans. Intell. Syst. Technol., 3(4),
1-22. doi:10.1145/2337542.2337559
? Rego, A. S. C, Marinho, L. B., & Pires, C. E. S. (2015). A supervised learning approach to detect subsumption relations between tags in folksonomies. Paper
presented at the Proceedings of the 30th Annual ACM Symposium on Applied Computing, Salamanca, Spain.
? Zhou, M., Bao, S., Wu, X., & Yu, Y. (2007). An unsupervised model for exploring hierarchical semantics from social annotations: Springer.
谢谢聆听
董行 | hang.dong@liverpool.ac.uk

More Related Content

语义沙龙:如何自动建构社会标签中的语义关系