狠狠撸

狠狠撸Share a Scribd company logo
基于机器学习和图数据库
实现即时推荐引擎
俞方桦 博士
Neo4j Inc. APAC
DTCC2018
俞方桦 博士 | Joshua
Yu
Field Engineering, Neo4j Inc. APAC
Joshua.yu@neo4j.com
DTCC2018
推荐引擎的即时性、精准性、相关性是大数
据时代网络营销的成功秘诀。
DTCC2018
Category
Pric
e
Configuration
s
Locatio
n
来自架构的挑战
Purchase View
Review
Return
In-store
Purchases
Inventor
y
产物 消费者 / 用户
Locatio
n
Purchases
RELATIONAL DB WIDE COLUMN STORE
Views
DOCUMENT STORE
User Review
RELATIONAL DB
In-Store
Purchase
Shopping Cart
KEY VALUE STORE
Product
Catalogue
DOCUMENT STORE
DTCC2018
Purchases
RELATIONAL DB
Product
Catalogue
DOCUMENT STORE WIDE COLUMN
STORE
Views
DOCUMENT STORE
User Review
RELATIONAL DB
In-Store
Purchase
Shopping
Cart
KEY VALUE STORE
Connector
Drivers: Java | JavaScript | Python | .Net | PHP | Go
| Ruby
Apps and Systems
Real-Time
Queries
使用图数据库建立对于产物和客户的
“知识图谱”
DTCC2018
什么是“图”数据库?
DTCC2018
对比:关系型和图数据库
存储
模式
DTCC2018
比较图和关系数据库:复杂查询的性能
参见:Graph Database 2nd Edition by O’Reilly 2017
DTCC2018
排序 /
相关度
限制 / 最多条目
相关知识
推荐引擎的抽象表示 – 问题定义
无序的数据项 高度相关的查询结果
DTCC2018
相关知识
选中的产物
(即“推荐”)
推荐引擎的抽象表示 – 基本功能
DTCC2018
提高精准度需要借助相关知识(Context)
? 用户
? 用户过去的交互
? 已经输入的搜索内容
? 一天中的时间段/一周中的某天/季节
? 天气状况
? 评价
? ...
DTCC2018
推荐引擎
调整和监控
相关知识
选中的产物
(即“推荐”)
推荐引擎的抽象表示 – 完整的功能
DTCC2018
INFORMS
name: “John”
last: ?Miller“
role: ?Supervisor“
name: "Maria"
pos: "Researcher"
since:
Jan 10, 2011
name: “Grant Application”
value: “250.000”
PERSON
PERSON
PERSON
PERSON
name: ”Jose"
last: “Pereia“
position: “Head of Research“
name: “Alice”
last: ?Smith“
role: ?Researcher“
图提供丰富的相关知识
DTCC2018
应用实例 – Meetup活动推荐
如何向用户推荐最符合他/她需求和兴趣的聚会活动,
以提高活动的报名人数和出席率?
DTCC2018
? 无效的推荐(已经参加的活动)
? 有效的推荐:匹配感兴趣的主题
? 接近度: 越远的关系相关度越小
Event
User
[:RSVP]
Topic
User Group Event
[:INTERESTED] [:HAS_TOPIC]
[:HOSTS_EVENT]
Topic
User Group Topic Group
[:INTERESTED] [:HAS_TOPIC] [:HAS_TOPIC] [:HAS_TOPIC]
Event
[:HOSTS_EVENT]
Meetup活动推荐 – 推理和发现
DTCC2018
? 密度: 越多路径达到的节点越相关
? 替代的路径
Topic
User Group Event
[:INTERESTED] [:HAS_TOPIC]
[:HOSTS_EVENT]
[:HAS_TOPIC]
[:INTERESTED]
Event
User
[:RSVP]
User
[:FRIENDS]
Topic
Meetup活动推荐 – 推理和发现(续)
DTCC2018
Cypher:图数据库查询语言
(:Person { name:"Dan"} ) -[:LOVES]-> (:Person { name:"Ann"} )
LOVES
Dan Ann
LABEL PROPERTY
NODE NODE
LABEL PROPERTY
Relationship
DTCC2018
Cypher:创建节点和关系
LOVES
Dan Ann
CREATE (:Person { name:"Dan"} ) -[:LOVES]-> (:Person { name:"Ann"} )
LABEL PROPERTY
NODE NODE
LABEL PROPERTY
Relationship
DTCC2018
Cypher:匹配图模式
LOVES
Dan Ann
MATCH (:Person { name:"Dan"} ) -[:LOVES]-> ( whom ) RETURN whom
VARIABLE
NODE NODE
LABEL PROPERTY
Relationship
DTCC2018
Meetup活动推荐 – 推理和发现(续)
? 发现最热门的主题
Topic Group
[:HAS_TOPIC]
注:以下的查询均用Cypher语言实现。
? 发现已经参加的聚会 Group
User
[:MEMBER_OF]
DTCC2018
Meetup活动推荐 – 推理和发现(续)
? 推导最可能感兴趣的主题
Group
User
[:MEMBER_OF]
Topic
[:HAS_TOPIC]
[:INTERESTED]
? 三元闭包(Triadic Closure)的应用
DTCC2018
Meetup活动推荐 – 推理和发现(续)
? 推荐最可能感兴趣的活动
Topic
User Group Event
[:INTERESTED] [:HAS_TOPIC]
[:HOSTS_EVENT]
[:HAS_TOPIC]
[:INTERESTED]
Topic
[:MEMBER_OF]
1. 找到所有未来的活动;
2. 看看这些活动是不是属于已经加入的兴
趣组;
3. 统计共同的兴趣主题;
4. 找到那些组织这些活动的兴趣组;
5. 按照时间对结果排序。
DTCC2018
Meetup活动推荐 – 推理和发现(续)
? 推荐朋友已经报名的活动
Topic Group Event
[:INTERESTED] [:HAS_TOPIC]
[:HOSTS_EVENT]
[:HAS_TOPIC]
[:INTERESTED]
Topic
[:MEMBER_OF]
User
[:FRIENDS]
DTCC2018
Meetup活动推荐 – 推理和发现(续)
? 对结果进行打分
? 运用Pareto规则对推荐进行打分
? 配置权重
? 调整不同推荐结果的重要性
? 计算的总分
? 按照总分进行排序
DTCC2018
? 基于协同的规则
? 共同参加的活动,余弦相似度,Jaccard相似度, Dice相似
度, ...
? 基于内容的规则
? 属于同一领域的其他主题和活动,例如“关系数据库”
兴趣组,可以推荐“建模”、“SQL”、“JDBC”
? 特定规则
? 最多人参加的活动、新活动、特邀嘉宾出席的活动等
? 综合各种规则的系统
Meetup活动推荐 – 进一步的改进
DTCC2018
中心性
决定节点在一个网络中的重
要性。
? 页面排行
? 间接中心性
? 紧密中心性
? 调和中心性
社区检测
对一个网络中节点自动进行
分类、分区,决定网络的集
群。
? Louvain方法
? 标签传播
路径寻找
寻找最短路径、生成子图。
? 最小权重生成子树
? 最短路径
Meetup活动推荐 – 进一步的改进
图论算法
DTCC2018
Meetup活动推荐 – 进一步的改进(续)
? 寻找兴趣相同的用户
? 社区检测算法
? 计算兴趣组的相似度
? 除了“朋友”关系,还可以推荐“同类人”参加的
活动
DTCC2018
Meetup活动推荐 – 进一步的改进(续)
? 发现“公众人物”/“领域专家”
? 运用中心性算法寻找“公众人物”
? 推荐公众人物的选择
? 专家对活动的评价
DTCC2018
Meetup活动推荐 – 进一步的改进(续)
? 最短路径算法
? 推荐新的朋友
? 发现共同的兴趣
? 优化活动安排的时间和地点
DTCC2018
相关知识
选择的产物
(即 推荐)
Meetup活动推荐 – 进一步的改进(续)
? 将用户的反馈也考虑进来
用户的评价
DTCC2018
? 明确的
? 隐含的
? 浏览过的活动
? 浏览活动的详细内容
? 添加活动到“收藏”、“关注”
? 参加过的活动
? 从头到尾阅读相关文章
? 从初始的推荐列表中过滤掉那些产生过负面反
馈的项目
Event
Meetup活动推荐 – 进一步的改进(续)
? 分析用户反馈
DTCC2018
? 基于实际数据进行训练:
? 用户接受度:因果关系
? 用户接受度:在关键路径上出现的节点
Event
User
[:RSVP]
User
[:FRIENDS]
Topic
User Group Event
[:INTERESTED] [:HAS_TOPIC] [:HOSTS_EVENT]
Topic
User Group Event
[:INTERESTED] [:HAS_TOPIC] [:HOSTS_EVENT]
Meetup活动推荐 – 进一步的改进(续)
DTCC2018
那为什么以前在机器学习中没有见到过图数据库?
几乎所有的人工智能算法都是“图算法”。
机器学习和图数据库
DTCC2018
以前的机器学习应用中,数据模型是个黑盒子。
机器学习和图数据库(续)
DTCC2018
数百次跳转
上千层深度
数十亿次连接
0 ~ 2次跳转
0 ~ 3层深度
数千连接
Response
Time
在大数据时代,数据库的类型将决定性能,而性
能对实时的推荐引擎至关重要。
机器学习和图数据库(续)
DTCC2018
知识图谱
Provide Rich
Context for AI
人工智能可视化
Human-Friendly
Graph Visualization
在图数据库上建模的AI
Faster, More
Accurate Development
在图数据库上执行的AI
Operationalize Real-Time OLAP and
Monitoring
基于图的分析型应用
Enrich AI Inputs with
Graph Algorithms
图数据库
Maintain a Source of
Connected AI Truth
图数据库技术将极大增强AI类应用
DTCC2018
总 结
? 基于图数据库实现机器学习
? 数据模型的一致性
? 性能优势,因为无须做连接(JOIN)
? 丰富的语义和关系
? 图论算法
? 模型的灵活性
结合图数据库和机器学习,使得实现即时、精准、
相关性高的推荐引擎成为可能。
DTCC2018
展望:建立在对产物和客户的全面视图
之上的即时推荐引擎
DTCC2018
? Website: http://neo4j.com
? 下载桌面版:https://neo4j.com/download/
? 在线数据库沙箱:https://neo4j.com/sandbox-v2/
? 技术问题(英文): http://stackoverflow.com
? Github开源项目和代码库: https://github.com/neo4j-contrib/
? 中文社区:http://neo4j.com.cn
? QQ 群:Neo4j 中文社区 / 547190638
? 图数据库(电子书):https://neo4j.com/graph-databases-book/
电子邮件: apac@neo4j.com (亚太地区)
如需了解更多,请访问以下免费资源
DTCC2018
DTCC2018
dtcc-Neo4j.pdf

More Related Content

Similar to dtcc-Neo4j.pdf (20)

JIRA Live DEMO 2020 v17
JIRA Live DEMO 2020 v17JIRA Live DEMO 2020 v17
JIRA Live DEMO 2020 v17
Linktech
?
Intro to Dialogflow Chatbot Development
Intro to Dialogflow Chatbot DevelopmentIntro to Dialogflow Chatbot Development
Intro to Dialogflow Chatbot Development
Ryan Chung
?
1_MySQL_20220307_0328.pptx
1_MySQL_20220307_0328.pptx1_MySQL_20220307_0328.pptx
1_MySQL_20220307_0328.pptx
FEG
?
欧赛斯山丽网络整合营销提案
欧赛斯山丽网络整合营销提案欧赛斯山丽网络整合营销提案
欧赛斯山丽网络整合营销提案
hpeter2002
?
Jira live demo 2021 v23
Jira live demo 2021 v23Jira live demo 2021 v23
Jira live demo 2021 v23
Linktech
?
使用者中心的網站設計原則 以英國政府入口網gov.uk 為例 / 悠識 蔡明哲
使用者中心的網站設計原則 以英國政府入口網gov.uk 為例 / 悠識 蔡明哲使用者中心的網站設計原則 以英國政府入口網gov.uk 為例 / 悠識 蔡明哲
使用者中心的網站設計原則 以英國政府入口網gov.uk 為例 / 悠識 蔡明哲
悠识学院
?
极速 Angular 开发:效能调校技巧 (ngChina 2019)
极速 Angular 开发:效能调校技巧 (ngChina 2019)极速 Angular 开发:效能调校技巧 (ngChina 2019)
极速 Angular 开发:效能调校技巧 (ngChina 2019)
Will Huang
?
20170108 微軟大數據整合解決方案- cortana intelligence suite
20170108 微軟大數據整合解決方案- cortana intelligence suite20170108 微軟大數據整合解決方案- cortana intelligence suite
20170108 微軟大數據整合解決方案- cortana intelligence suite
Meng-Ru (Raymond) Tsai
?
明洪涛 个性化推荐系统@土豆
明洪涛 个性化推荐系统@土豆明洪涛 个性化推荐系统@土豆
明洪涛 个性化推荐系统@土豆
topgeek
?
20150206 aic machine learning
20150206 aic machine learning20150206 aic machine learning
20150206 aic machine learning
Meng-Ru (Raymond) Tsai
?
從 GitHub Copilot 到 Enterprise Copilot:打造符合企業需求的智能開發助手之路 | .NET Conf 2023 Taiwan
從 GitHub Copilot 到 Enterprise Copilot:打造符合企業需求的智能開發助手之路 | .NET Conf 2023 Taiwan從 GitHub Copilot 到 Enterprise Copilot:打造符合企業需求的智能開發助手之路 | .NET Conf 2023 Taiwan
從 GitHub Copilot 到 Enterprise Copilot:打造符合企業需求的智能開發助手之路 | .NET Conf 2023 Taiwan
Alan Tsai
?
罗旭祥 基于数据挖掘的产物设计
罗旭祥 基于数据挖掘的产物设计罗旭祥 基于数据挖掘的产物设计
罗旭祥 基于数据挖掘的产物设计
PMCamp
?
Web3 安全新紀元 挑戰、機遇與前瞻 |凱特納科技 CyCatena -0505 iThome 資安大會.pdf
Web3 安全新紀元 挑戰、機遇與前瞻 |凱特納科技 CyCatena -0505 iThome 資安大會.pdfWeb3 安全新紀元 挑戰、機遇與前瞻 |凱特納科技 CyCatena -0505 iThome 資安大會.pdf
Web3 安全新紀元 挑戰、機遇與前瞻 |凱特納科技 CyCatena -0505 iThome 資安大會.pdf
cycatena
?
#3月瘋行動 打造行動網站,掌上流量一網打盡
#3月瘋行動 打造行動網站,掌上流量一網打盡#3月瘋行動 打造行動網站,掌上流量一網打盡
#3月瘋行動 打造行動網站,掌上流量一網打盡
AdWordsGreaterChina
?
Project GATE 的敏捷實踐之路
Project GATE 的敏捷實踐之路Project GATE 的敏捷實踐之路
Project GATE 的敏捷實踐之路
AgileCommunity
?
用户体验的 要素 很好的资料
用户体验的 要素 很好的资料用户体验的 要素 很好的资料
用户体验的 要素 很好的资料
grey0511
?
狠狠撸s qian anchuan_agile requirement analysis
狠狠撸s qian anchuan_agile requirement analysis狠狠撸s qian anchuan_agile requirement analysis
狠狠撸s qian anchuan_agile requirement analysis
Odd-e
?
User Research Course 03: Insights + Experience Design
User Research Course 03: Insights + Experience DesignUser Research Course 03: Insights + Experience Design
User Research Course 03: Insights + Experience Design
kzhoubcslab
?
JIRA Live DEMO 2020 v17
JIRA Live DEMO 2020 v17JIRA Live DEMO 2020 v17
JIRA Live DEMO 2020 v17
Linktech
?
Intro to Dialogflow Chatbot Development
Intro to Dialogflow Chatbot DevelopmentIntro to Dialogflow Chatbot Development
Intro to Dialogflow Chatbot Development
Ryan Chung
?
1_MySQL_20220307_0328.pptx
1_MySQL_20220307_0328.pptx1_MySQL_20220307_0328.pptx
1_MySQL_20220307_0328.pptx
FEG
?
欧赛斯山丽网络整合营销提案
欧赛斯山丽网络整合营销提案欧赛斯山丽网络整合营销提案
欧赛斯山丽网络整合营销提案
hpeter2002
?
Jira live demo 2021 v23
Jira live demo 2021 v23Jira live demo 2021 v23
Jira live demo 2021 v23
Linktech
?
使用者中心的網站設計原則 以英國政府入口網gov.uk 為例 / 悠識 蔡明哲
使用者中心的網站設計原則 以英國政府入口網gov.uk 為例 / 悠識 蔡明哲使用者中心的網站設計原則 以英國政府入口網gov.uk 為例 / 悠識 蔡明哲
使用者中心的網站設計原則 以英國政府入口網gov.uk 為例 / 悠識 蔡明哲
悠识学院
?
极速 Angular 开发:效能调校技巧 (ngChina 2019)
极速 Angular 开发:效能调校技巧 (ngChina 2019)极速 Angular 开发:效能调校技巧 (ngChina 2019)
极速 Angular 开发:效能调校技巧 (ngChina 2019)
Will Huang
?
20170108 微軟大數據整合解決方案- cortana intelligence suite
20170108 微軟大數據整合解決方案- cortana intelligence suite20170108 微軟大數據整合解決方案- cortana intelligence suite
20170108 微軟大數據整合解決方案- cortana intelligence suite
Meng-Ru (Raymond) Tsai
?
明洪涛 个性化推荐系统@土豆
明洪涛 个性化推荐系统@土豆明洪涛 个性化推荐系统@土豆
明洪涛 个性化推荐系统@土豆
topgeek
?
從 GitHub Copilot 到 Enterprise Copilot:打造符合企業需求的智能開發助手之路 | .NET Conf 2023 Taiwan
從 GitHub Copilot 到 Enterprise Copilot:打造符合企業需求的智能開發助手之路 | .NET Conf 2023 Taiwan從 GitHub Copilot 到 Enterprise Copilot:打造符合企業需求的智能開發助手之路 | .NET Conf 2023 Taiwan
從 GitHub Copilot 到 Enterprise Copilot:打造符合企業需求的智能開發助手之路 | .NET Conf 2023 Taiwan
Alan Tsai
?
罗旭祥 基于数据挖掘的产物设计
罗旭祥 基于数据挖掘的产物设计罗旭祥 基于数据挖掘的产物设计
罗旭祥 基于数据挖掘的产物设计
PMCamp
?
Web3 安全新紀元 挑戰、機遇與前瞻 |凱特納科技 CyCatena -0505 iThome 資安大會.pdf
Web3 安全新紀元 挑戰、機遇與前瞻 |凱特納科技 CyCatena -0505 iThome 資安大會.pdfWeb3 安全新紀元 挑戰、機遇與前瞻 |凱特納科技 CyCatena -0505 iThome 資安大會.pdf
Web3 安全新紀元 挑戰、機遇與前瞻 |凱特納科技 CyCatena -0505 iThome 資安大會.pdf
cycatena
?
#3月瘋行動 打造行動網站,掌上流量一網打盡
#3月瘋行動 打造行動網站,掌上流量一網打盡#3月瘋行動 打造行動網站,掌上流量一網打盡
#3月瘋行動 打造行動網站,掌上流量一網打盡
AdWordsGreaterChina
?
Project GATE 的敏捷實踐之路
Project GATE 的敏捷實踐之路Project GATE 的敏捷實踐之路
Project GATE 的敏捷實踐之路
AgileCommunity
?
用户体验的 要素 很好的资料
用户体验的 要素 很好的资料用户体验的 要素 很好的资料
用户体验的 要素 很好的资料
grey0511
?
狠狠撸s qian anchuan_agile requirement analysis
狠狠撸s qian anchuan_agile requirement analysis狠狠撸s qian anchuan_agile requirement analysis
狠狠撸s qian anchuan_agile requirement analysis
Odd-e
?
User Research Course 03: Insights + Experience Design
User Research Course 03: Insights + Experience DesignUser Research Course 03: Insights + Experience Design
User Research Course 03: Insights + Experience Design
kzhoubcslab
?

dtcc-Neo4j.pdf