Rekomendujemy - Szybkie wprowadzenie do system坦w rekomendacji oraz troch wie...Bartlomiej Twardowski
油
W zalewie informacji odnalezienie tych kt坦re nas rzeczywicie interesuj staje si bardzo trudne. Wspomagaj nas w tym systemy IR, np. w postaci wyszukiwarek internetowych. O krok dalej id systemy rekomendacji, pr坦bujc odgadn preferencje u甜ytkownika i zaoferowa najlepiej spersonalizowane treci automatycznie.
Podejcie do problemu rekomendacji u甜ytkownikowi najbardziej dopasowanych informacji zmieniao si w czasie. Aktualnie do wyboru mamy szereg gotowych do zastosowania metod: od prostego opisu podobiestwa u甜ytkownik坦w, koczc na zo甜onych modelach trenowanych przez metody ML. Trudno zaczyna stanowi poprawne zrozumienie problemu/domeny, odpowiednie dobranie metody rekomendacji oraz spos坦b jej pomiaru.
Na prezentacji zostanie przedstawione kr坦tkie wprowadzenie do tematyki system坦w rekomendacji. Om坦wione zostan metod rekomendacji oraz sposoby ich ewaluacja. Zaprezentowane zostanie podejcie do problemu jako "ranking top-N" najlepszych ofert. Cao uzupeniona zostanie dowiadczeniami i ciekawymi problemami z implementacji platformy rekomendacyjnej dla najwikszego serwisu e-commerce w Polsce.
Systemy rekomendacji, Algorytmy rankingu Top-N rekomendacji bazujce na nieja...Bartlomiej Twardowski
油
Wprowadzenie do system坦w rekomendacji - prezentacja z seminarium Instytutu Informatyki Politechniki Warszawskiej.
W zalewie informacji odnalezienie tych kt坦re nas rzeczywicie interesuj staje si bardzo trudne. Wspomagaj nas w tym systemy IR, np. w postaci wyszukiwarek internetowych. O krok dalej id systemy rekomendacji, pr坦bujc odgadn preferencje u甜ytkownika i zaoferowa najlepiej spersonalizowane treci automatycznie.
Podejcie do problemu rekomendacji u甜ytkownikowi najbardziej dopasowanych informacji zmieniao si w czasie. Aktualnie do wyboru mamy szereg gotowych do zastosowania metod: od prostego opisu podobiestwa u甜ytkownik坦w, koczc na zo甜onych modelach data mining. Trudno zaczyna stanowi poprawne zrozumienie problemu/domeny, odpowiednie dobranie metody rekomendacji oraz spos坦b jej pomiaru.
Na prezentacji zostanie przedstawione kr坦tkie wprowadzenie do tematyki system坦w rekomendacji. Om坦wione zostan metod rekomendacji oraz sposoby ich ewaluacja. Zaprezentowane zostanie podejcie do rekomendacji jako "ranking top-N". Cao uzupeniona zostanie dowiadczeniami i ciekawymi problemami z implementacji platformy rekomendacyjnej dla najwikszego serwisu e-commerce w Polsce.
This document provides an overview of recommender systems. It defines recommender systems as tools that suggest items like books, movies, music or products to users based on their preferences and behavior. It then describes several common types of recommender system algorithms including content-based, collaborative filtering using similarity measures, and latent factor models. The document also briefly discusses open problems in recommender systems like how to evaluate and improve different evaluation metrics over time.
Datajob 2013 - Construire un systeme de recommandationDjamel Zouaoui
This document discusses recommender systems, including:
1. It provides an overview of recommender systems, their history, and common problems like top-N recommendation and rating prediction.
2. It then discusses what makes a good recommender system, including experiment methods like offline, user surveys, and online experiments, as well as evaluation metrics like prediction accuracy, diversity, novelty, and user satisfaction.
3. Key metrics that are important to evaluate recommender systems are discussed, such as user satisfaction, prediction accuracy, coverage, diversity, novelty, serendipity, trust, robustness, and response time. The document emphasizes selecting metrics based on business goals.
Recommender systems are software tools and techniques providing suggestions for items to be of interest to a user. Recommender systems have proved in recent years to be a valuable means of helping Web users by providing useful and effective recommendations or suggestions.
Deep learning techniques are increasingly being used for recommender systems. Neural network models such as word2vec, doc2vec and prod2vec learn embedding representations of items from user interaction data that capture their relationships. These embeddings can then be used to make recommendations by finding similar items. Deep collaborative filtering models apply neural networks to matrix factorization techniques to learn joint representations of users and items from rating data.
Recommender systems are software agents that analyze a user's preferences through transactions and provide personalized recommendations accordingly. There are several recommendation paradigms including non-personalized rules, personalized rules based on user data, and transaction-based collaborative filtering that learns from user interactions. Context-based recommender systems also consider additional information like time, location, or device to provide adaptive recommendations. Common techniques used in recommender systems include content-based filtering that recommends similar items, collaborative filtering that finds users with similar tastes, and demographic-based recommendations.
Recommender Systems (Machine Learning Summer School 2014 @ CMU)Xavier Amatriain
油
The document summarizes a presentation on recommender systems given by Xavier Amatriain. It begins with introductions to recommender systems and collaborative filtering. Traditional collaborative filtering approaches include user-based and item-based methods. User-based CF finds similar users to a target user and recommends items they liked. Item-based CF finds similar items to those a target user liked and predicts ratings. Both approaches address sparsity and scalability challenges with dimensionality reduction techniques.
The document provides an overview of recommender systems. It discusses the typical architecture of recommender systems and describes three main types: collaborative filtering systems, content-based systems, and knowledge-based systems. It also covers paradigms like collaborative filtering, content-based, knowledge-based, and hybrid recommender systems. The document then focuses on collaborative filtering techniques like user-based nearest neighbor collaborative filtering and item-based collaborative filtering. It also discusses latent factor models, matrix factorization approaches, and context-based recommender systems.
This document provides an overview of recommendation engines and systems. It describes different types of recommendation approaches, including collaborative filtering, content-based filtering, and hybrid methods. It also discusses how recommendation algorithms work and are implemented in Apache Mahout, a machine learning library for developing scalable recommendation applications. Key recommendation techniques like item-based filtering and user-based filtering are explained.
This document provides an overview of recommender systems. It discusses several key points:
1. Recommender systems use collaborative filtering, content-based filtering, or knowledge-based techniques to predict items users may like based on their preferences.
2. Collaborative filtering finds users with similar tastes and recommends items liked by similar users. It can be memory-based or model-based.
3. Content-based filtering recommends additional similar items to those a user has liked based on item characteristics.
4. The document also discusses challenges like data sparsity and cold start problems faced by recommender systems.
Recommender Systems represent one of the most widespread and impactful applications of predictive machine learning models.
Amazon, YouTube, Netflix, Facebook and many other companies generate an important fraction of their revenues thanks to their ability to model and accurately predict users ratings and preferences.
In this presentation we cover the following points:
introduction to recommender systems
working with explicit vs implicit feedback
content-based vs collaborative filtering approaches
user-based and item-item methods
machine learning and deep learning models
pros & cons of the methods: scalability, accuracy, explainability
Matrix Factorization Techniques For Recommender SystemsLei Guo
油
The document discusses matrix factorization techniques for recommender systems. It begins by describing common recommender system strategies like content-based and collaborative filtering approaches. It then introduces matrix factorization methods, which characterize both users and items by vectors of latent factors inferred from rating patterns. The basic matrix factorization model approximates user ratings as the inner product of user and item vectors in the joint latent factor space. Learning algorithms like stochastic gradient descent and alternating least squares are used to compute the user and item vectors by minimizing a regularized error function on known ratings.
The document describes research on enhancing recommender systems through the use of user profiles and tagging systems. It discusses how user profiles can be used to provide personalized recommendations by describing a user's interests. It presents two research papers that studied how profile similarity and rating overlap between users can improve recommendation accuracy and user confidence. It also discusses how tagging systems can be leveraged by integrating user, tag, and resource dimensions. One paper proposes a personalized recommender model for folksonomies that extends the folksonomy by combining shared tags/resources and recommends tags and resources based on a user's profile and tagging history.
In this lecture, I will first cover the recent advances in neural recommender systems such as autoencoder-based and MLP-based recommender systems. Then, I will introduce the recent achievement for automatic playlist continuation in music recommendation.
An introduction to Recommendation engines
and how these systems work.
Both content based and collaborative filtering models are introduced.
Hotel recommendation system is explained as a case study.
basic Function and Terminology of Recommendation Systems. Some Algorithmic Implementation with some sample Dataset for Understanding. It contains all the Layers of RS Framework well explained.
Overview of the Recommender system or recommendation system. RFM Concepts in brief. Collaborative Filtering in Item and User based. Content-based Recommendation also described.Product Association Recommender System. Stereotype Recommendation described with advantage and limitations.Customer Lifetime. Recommender System Analysis and Solving Cycle.
What really are recommendations engines nowadays?
This presentation introduces the foundations of recommendation algorithms, and covers common approaches as well as some of the most advanced techniques. Although more focused on efficiency than theoretical properties, basics of matrix algebra and optimization-based machine learning are used through the presentation.
Table of Contents:
1. Collaborative Filtering
1.1 User-User
1.2 Item-Item
1.3 User-Item
* Matrix Factorization
* Stochastic Gradient Descent (SGD)
* Truncated Singular Value Decomposition (SVD)
* Alternating Least Square (ALS)
* Deep Learning
2. Content Extraction
* Item-Item Similarities
* Deep Content Extraction: NLP, CNN, LSTM
3. Hybrid Models
4. In Production
4.1 Problematics
4.2 Solutions
4.3 Tools
La surcharge cognitive d'un utilisateur due une trop grande quantit辿 d'information est un probl竪me majeur des syst竪mes hyperm辿dia. Les syst竪mes de recommandation ont 辿t辿 introduits pour r辿soudre ce probl竪me et sont maintenant utilis辿s couramment pour am辿liorer l'exp辿rience utilisateur sur le Web. Cet expos辿 pr辿sente le fonctionnement des syst竪mes de recommandations, les diff辿rentes approches de la litt辿rature, et l'辿valuation des recommandations. Quelques unes de mes contributions sont abord辿es et des perspectives du domaine concluent cette pr辿sentation.
Past, present, and future of Recommender Systems: an industry perspectiveXavier Amatriain
油
Keynote for the ACM Intelligent User Interface conference in 2016 in Sonoma, CA. I start with the past by talking about the Recommender Problem, and the Netflix Prize. Then I go into the Present and the Future by talking about approaches that go beyond rating prediction and ranking and by finishing with some of the most important lessons learned over the years. Throughout my talk I put special emphasis on the relation between algorithms and the User Interface.
This document provides an overview of recommender systems for e-commerce. It discusses various recommender approaches including collaborative filtering algorithms like nearest neighbor methods, item-based collaborative filtering, and matrix factorization. It also covers content-based recommendation, classification techniques, addressing challenges like data sparsity and scalability, and hybrid recommendation approaches.
Recommender Systems (Machine Learning Summer School 2014 @ CMU)Xavier Amatriain
油
The document summarizes a presentation on recommender systems given by Xavier Amatriain. It begins with introductions to recommender systems and collaborative filtering. Traditional collaborative filtering approaches include user-based and item-based methods. User-based CF finds similar users to a target user and recommends items they liked. Item-based CF finds similar items to those a target user liked and predicts ratings. Both approaches address sparsity and scalability challenges with dimensionality reduction techniques.
The document provides an overview of recommender systems. It discusses the typical architecture of recommender systems and describes three main types: collaborative filtering systems, content-based systems, and knowledge-based systems. It also covers paradigms like collaborative filtering, content-based, knowledge-based, and hybrid recommender systems. The document then focuses on collaborative filtering techniques like user-based nearest neighbor collaborative filtering and item-based collaborative filtering. It also discusses latent factor models, matrix factorization approaches, and context-based recommender systems.
This document provides an overview of recommendation engines and systems. It describes different types of recommendation approaches, including collaborative filtering, content-based filtering, and hybrid methods. It also discusses how recommendation algorithms work and are implemented in Apache Mahout, a machine learning library for developing scalable recommendation applications. Key recommendation techniques like item-based filtering and user-based filtering are explained.
This document provides an overview of recommender systems. It discusses several key points:
1. Recommender systems use collaborative filtering, content-based filtering, or knowledge-based techniques to predict items users may like based on their preferences.
2. Collaborative filtering finds users with similar tastes and recommends items liked by similar users. It can be memory-based or model-based.
3. Content-based filtering recommends additional similar items to those a user has liked based on item characteristics.
4. The document also discusses challenges like data sparsity and cold start problems faced by recommender systems.
Recommender Systems represent one of the most widespread and impactful applications of predictive machine learning models.
Amazon, YouTube, Netflix, Facebook and many other companies generate an important fraction of their revenues thanks to their ability to model and accurately predict users ratings and preferences.
In this presentation we cover the following points:
introduction to recommender systems
working with explicit vs implicit feedback
content-based vs collaborative filtering approaches
user-based and item-item methods
machine learning and deep learning models
pros & cons of the methods: scalability, accuracy, explainability
Matrix Factorization Techniques For Recommender SystemsLei Guo
油
The document discusses matrix factorization techniques for recommender systems. It begins by describing common recommender system strategies like content-based and collaborative filtering approaches. It then introduces matrix factorization methods, which characterize both users and items by vectors of latent factors inferred from rating patterns. The basic matrix factorization model approximates user ratings as the inner product of user and item vectors in the joint latent factor space. Learning algorithms like stochastic gradient descent and alternating least squares are used to compute the user and item vectors by minimizing a regularized error function on known ratings.
The document describes research on enhancing recommender systems through the use of user profiles and tagging systems. It discusses how user profiles can be used to provide personalized recommendations by describing a user's interests. It presents two research papers that studied how profile similarity and rating overlap between users can improve recommendation accuracy and user confidence. It also discusses how tagging systems can be leveraged by integrating user, tag, and resource dimensions. One paper proposes a personalized recommender model for folksonomies that extends the folksonomy by combining shared tags/resources and recommends tags and resources based on a user's profile and tagging history.
In this lecture, I will first cover the recent advances in neural recommender systems such as autoencoder-based and MLP-based recommender systems. Then, I will introduce the recent achievement for automatic playlist continuation in music recommendation.
An introduction to Recommendation engines
and how these systems work.
Both content based and collaborative filtering models are introduced.
Hotel recommendation system is explained as a case study.
basic Function and Terminology of Recommendation Systems. Some Algorithmic Implementation with some sample Dataset for Understanding. It contains all the Layers of RS Framework well explained.
Overview of the Recommender system or recommendation system. RFM Concepts in brief. Collaborative Filtering in Item and User based. Content-based Recommendation also described.Product Association Recommender System. Stereotype Recommendation described with advantage and limitations.Customer Lifetime. Recommender System Analysis and Solving Cycle.
What really are recommendations engines nowadays?
This presentation introduces the foundations of recommendation algorithms, and covers common approaches as well as some of the most advanced techniques. Although more focused on efficiency than theoretical properties, basics of matrix algebra and optimization-based machine learning are used through the presentation.
Table of Contents:
1. Collaborative Filtering
1.1 User-User
1.2 Item-Item
1.3 User-Item
* Matrix Factorization
* Stochastic Gradient Descent (SGD)
* Truncated Singular Value Decomposition (SVD)
* Alternating Least Square (ALS)
* Deep Learning
2. Content Extraction
* Item-Item Similarities
* Deep Content Extraction: NLP, CNN, LSTM
3. Hybrid Models
4. In Production
4.1 Problematics
4.2 Solutions
4.3 Tools
La surcharge cognitive d'un utilisateur due une trop grande quantit辿 d'information est un probl竪me majeur des syst竪mes hyperm辿dia. Les syst竪mes de recommandation ont 辿t辿 introduits pour r辿soudre ce probl竪me et sont maintenant utilis辿s couramment pour am辿liorer l'exp辿rience utilisateur sur le Web. Cet expos辿 pr辿sente le fonctionnement des syst竪mes de recommandations, les diff辿rentes approches de la litt辿rature, et l'辿valuation des recommandations. Quelques unes de mes contributions sont abord辿es et des perspectives du domaine concluent cette pr辿sentation.
Past, present, and future of Recommender Systems: an industry perspectiveXavier Amatriain
油
Keynote for the ACM Intelligent User Interface conference in 2016 in Sonoma, CA. I start with the past by talking about the Recommender Problem, and the Netflix Prize. Then I go into the Present and the Future by talking about approaches that go beyond rating prediction and ranking and by finishing with some of the most important lessons learned over the years. Throughout my talk I put special emphasis on the relation between algorithms and the User Interface.
This document provides an overview of recommender systems for e-commerce. It discusses various recommender approaches including collaborative filtering algorithms like nearest neighbor methods, item-based collaborative filtering, and matrix factorization. It also covers content-based recommendation, classification techniques, addressing challenges like data sparsity and scalability, and hybrid recommendation approaches.
Por坦wnanie bibliotek cyfrowych JBC i WSL wg zasad przewodnika NISO Anna MielecAnna Mielec
油
Por坦wnanie i ocena Bibliotek Cyfrowych Jagielloskiej i Uniwersytetu Warwick wedug zasad NISO. Nahotko Marek. Zasady tworzenia bibliotek cyfrowych. EBIB. 2006, nr. 4. Dostp: http://www.ebib.info/2006/74/nahotko.php
Prezentacja przygotowana na zajcia ze studi坦w informacja naukowa i bibliotekoznawstwo specjalizacja informacja w rodowisku cyfrowym.
04.02.2014 r.
At Spotify we collect huge volumes of data for many purposes. Reporting to labels, powering our product features, and analyzing user growth are some of our most common ones. Additionally, we collect many operational metrics related to the responsiveness, utilization and capacity of our servers. To store and process this data, we use scalable and fault-tolerant multi-system infrastructure, and Apache Hadoop is a key part of it. Surprisingly or not, Apache Hadoop generates large amounts of data in the form of logs and metrics that describe its behaviour and performance. To process this data in a scalable and performant manner we use also Hadoop! During this presentation, I will talk about how we analyze various logs generated by Apache Hadoop using custom scripts (written in Pig or Java/Python MapReduce) and available open-source tools to get data-driven answers to many questions related to the behaviour of our 690-node Hadoop cluster. At Spotify we frequently leverage these tools to learn how fast we are growing, when to buy new nodes, how to calculate the empirical retention policy for each dataset, optimize the scheduler, benchmark the cluster, find its biggest offenders (both people and datasets) and more.
1) At Spotify, big data is used to answer important questions from various stakeholders like how many times songs have been streamed, most popular artists, and streaming numbers for marketing purposes.
2) Data infrastructure at Spotify includes a large Hadoop cluster with over 6 petabytes of data used to generate insights from user activity logs and improve the product.
3) Answering tricky questions requires techniques like A/B testing and analyzing streaming patterns to determine viral songs or artist reactions to new releases. Data-driven decisions are made to personalize the user experience.
This document provides an overview of Apache Hadoop and its two main components - HDFS and MapReduce. It describes the fundamental ideas behind Hadoop such as storing data reliably across commodity hardware and moving computation to data. It then discusses HDFS in more detail, explaining how it stores very large files reliably through data replication and partitioning files into blocks. It also covers the roles of the NameNode and DataNodes and common HDFS commands. Finally, it discusses some challenges encountered when using HDFS in practice and potential solutions.
Hadoop Adventures At Spotify (Strata Conference + Hadoop World 2013)Adam Kawa
油
Adam Kawa shares his experiences working with a large, rapidly growing Hadoop cluster at Spotify. He details five "adventures" where various problems broke the cluster or made it unstable. These included issues with user permissions causing NameNode instability, DataNodes becoming blocked in deadlocks, Hive jobs being killed by the Fair Scheduler, and the JobTracker becoming slow due to overly large jobs. Each time, the problems were troubleshot and lessons were learned about proper cluster management, testing changes, and making data-driven decisions.
Hadoop Playlist (Ignite talks at Strata + Hadoop World 2013)Adam Kawa
油
Link to video: http://www.youtube.com/watch?v=_GNbn4RzZcQ
A typical day of a data engineer at Spotify revolves around Hadoop and music. However after some time of simultaneous developing MapReduce jobs, maintaining a cluster and listening to perfect music, something surprising might happen.. What? Well, a data engineer starts discovering Hadoop concepts in the lyrics of many songs! How can Coldplay, The Black Eyed Peas, Michael Jackson sing about Hadoop? (more at blog: http://hakunamapdata.com/hadoop-playlist-at-spotify/)
Apache Hadoop YARN, NameNode HA, HDFS FederationAdam Kawa
油
The document provides an introduction to YARN, HDFS federation, and HDFS high availability. It discusses limitations of the original MapReduce framework and HDFS, such as single points of failure. It then summarizes improvements in YARN including distributed resource management and the ability to run multiple applications. HDFS federation and high availability address scalability and reliability concerns by partitioning the namespace and introducing redundant NameNodes. Configuration parameters and Apache Whirr are also covered for quickly setting up a YARN cluster.
This document provides an overview of the Apache Hadoop API for input formats. It discusses the responsibilities of input formats, common input formats like TextInputFormat and KeyValueTextInputFormat, and binary formats like SequenceFileInputFormat. It also covers the InputFormat and RecordReader classes, using mappers to process input splits, and considerations for keys and values.
This document provides an introduction and overview of YARN (Yet Another Resource Negotiator), a framework for job scheduling and cluster resource management in Apache Hadoop. It discusses limitations of the "classical" MapReduce framework and how YARN addresses these through its separation of scheduling and application execution responsibilities across a ResourceManager and per-application ApplicationMasters. Key aspects of YARN's architecture like NodeManagers and containers are also introduced.
Data model for analysis of scholarly documents in the MapReduce paradigm Adam Kawa
油
This document summarizes a presentation on using Apache Hadoop tools to analyze scholarly documents. It discusses storing metadata and text of scholarly documents and extracting knowledge from them. Requirements for scalable storage, parallel processing, and flexible data models are also outlined. Possible solutions for storing document relationship data as linked RDF triples in HBase and performing analytics using MapReduce, Pig, and Hive are presented.
This document provides an introduction to Apache Pig including:
- What Pig is and how it offers a high-level language called PigLatin for analyzing large datasets.
- How PigLatin provides common data operations and types and is more natural for analysts than MapReduce.
- Examples of how WordCount looks in PigLatin versus Java MapReduce.
- How Pig works by parsing, optimizing, and executing PigLatin scripts as MapReduce jobs on Hadoop.
- Considerations for developing, running, and optimizing PigLatin scripts.
Introduction To Elastic MapReduce at WHUGAdam Kawa
油
Elasic MapReduce presentation given at 2nd meeting of Warsaw Hadoop User Group.
Watch also demonstration at www.youtube.com/watch?v=Azwilbn8GCs (it show how to create Hadoop cluster on Amazon Elastic MapReduce with Karashpere Studio for EMR (a plugin for Eclipse) to launch big calculations quickly and easily.
Introduction To Elastic MapReduce at WHUGAdam Kawa
油
Systemy rekomendacji
1. Systemy rekomendacji
Adam Kawa
Seminarium: Systemy przetwarzania informacji
09.01.2008, godz. 12:15
2. Systemy rekomendacji
Plan prezentacji
Wprowadzenie
Metody zbierania informacji o u甜ytkowniku
Techniki rekomendacji
Problemy, trudnoci i wyzwania
Przykady aplikacji
3. Wprowadzenie
Definicja
Systemy rekomendacji to programy, kt坦re
straj si przedstawi informacje o przedmiotach (np. muzka, filmy),
kt坦rymi dany u甜ytkownik m坦gby by zainteresowany
wykorzystuj w tym celu zebrane informacje na temat preferencji i cech
u甜ytkownika, preferencji i cech innych u甜ytkownik坦w oraz atrybut坦w
przedmiot坦w.
5. Wprowadzenie
Przyczyny powstania [2]
przyrost liczby u甜ytkownik坦w (wiksze
zr坦甜nicowanie ich potrzeb)
przyrost iloci danych (udostpnianych oraz
poszukiwanych)
ten sam czas, kt坦ry mo甜na powici na
znalezienie interesujcych informacji
ten sam czas, kt坦ry mo甜na powici na
zrozumienie i wykorzystanie znalezionych
informacji
6. Wprowadzenie
Mo甜liwe korzyci [2]
Dla u甜ytkownik坦w
szybki dostp do poszukiwanych zasob坦w
mo甜liwo otrzymania informacji zgodnej z preferencjami i oczekiwaniami
Dla wacicieli:
pozyskanie licznej grupy klient坦w
mo甜liwo zdefiniowania grup docelowych, do kt坦rych mog by
kierowane szczeg坦owe treci i oferty
zdobycie uznania wr坦d u甜ytkownik坦w za dostosowanie portalu do ich
potrzeb
szansa na pozyskanie lojalnoci
konkurencyjno wobec serwis坦w, kt坦re nie stosuj
takich praktyk
7. Wprowadzenie
Problem rekomendacji (uproszczony) [3]
Niech
C - zbi坦r wszystkich u甜ytkownik坦w
I - zbi坦r rekomendowanych przedmiot坦w (np. ksizki, filmy, usugi
finansowe)
R - uporzdkowany zbi坦r (np. liczb cakowitych z zakresu <1,100>)
u : C I R - funkcja u甜ytecznoci przedmiotu i dla u甜ytkownika c.
Zadanie:
cC , i c =max u c ,i
iI
(dla ka甜dego u甜ytkownika znale添 przedmiot o najwikszej wartoci funkcji
u甜ytecznoci)
8. Systemy rekomendacji
Problem rekomendacji (uproszczony) [2]
Og坦lna idea dziaania
identyfikacja u甜ytkownika (zebranie infromacji o nim)
analiza danych (stworzenie profilu u甜ytkownika reprezentujcego jego
preferencje)
indywidualizacja zasob坦w (rekomendacja przedmiot坦w najbardziej
pasujcych do profilu danego u甜ytkownika)
9. Systemy rekomendacji
Plan prezentacji
Wprowadzenie
Metody zbierania informacji o u甜ytkowniku
Techniki rekomendacji
Problemy, trudnoci i wyzwania
Przykady aplikacji
10. Metody zbierania informacji
Metody zbierania informacji o u甜ytkowniku
Profilowanie jawne (explicit profile)
Profilowanie domniemane (implicit profile)
11. Metody zbierania informacji
Profilowanie jawne (explicit profile)
uzyskiwanie informacji bezporednio od u甜ytkownika poprzez wypenianie
kwestionariuszy lub odpowiadanie na pytania, np.
ocena przedmiotu w skali liczbowej
uszeregowanie listy przedmiot坦w od najbardziej do najmniej ulubionych
utworzenie listy przedmiot坦w, kt坦re u甜ytkownik (nie) lubi.
subiektywny obraz profilu u甜ytkownika
spotykane z niechci ze strony u甜ytkownika
trudnoci w pozyskiwaniu du甜ej liczy informacjii
12. Metody zbierania informacji
Profilowanie domniemane (implicit profile)
obserowanie zachowa u甜ytkownika, np.
prowadzenie archiwum zakupionych przedmiot坦w
utrzymywanie listy ostatnio przegldanych przedmiot坦w
analiza cech ogldanych przedmiot坦w
analiza czasu powiconego na ogldanie przedmiotu
wyszukiwanie innych u甜ytkownik坦w o podobnych gustach
rzeczywisty i aktualny obraz profilu u甜ytkownika na podstawie jego
faktycznego zachowania
niewidoczne dla u甜ytkownika
umo甜liwia zebranie wikszej iloci informacji
13. Systemy rekomendacji
Plan prezentacji
Wprowadzenie
Metody zbierania informacji o u甜ytkowniku
Techniki rekomendacji
Problemy, trudnoci i wyzwania
Przykady aplikacji
14. Techniki rekomendacji
Techniki rekomendacji
Niespersonalizowane
Oparte na u甜ytkowniku (user-based)
Oparte na zawartoci (content-based)
Kolaboratywne filtrowanie (collaborative filtering)
Oparte na u甜ytkowniku (user-based)
Hybrydowe metody (hybrid methods) - lczce powy甜sze techniki
15. Techniki rekomendacji
Niespersonalizowane (non-personalized) [1]
Rekomendacja najpopularniejszych przedmiot坦w wszystkim u甜ytkownikom.
popularno: oceny u甜ytkownik坦w, dane sprzeda甜y, ogldalno itd.
obliczenie redniej oceny popularnoci dla ka甜dego przedmiotu
rekomendacja przedmiot坦w z najwy甜sz redni ocen
np. prezentacja listy 10 najpopularniejszych film坦w (komedii)
16. Techniki rekomendacji
Oparte na u甜ytkowniku (user-based) [1]
Rekomendacja tych samych przedmiot坦w grupom u甜ytkownik坦w o wsp坦lnych
cechach osobistych.
cechy osobiste: wiek, pe, kraj, zaw坦d, stan cywilny itd.
znalezienie u甜ytkownik坦w o podobnych cechach
rekomendacja przedmiot坦w wybieranych przez u甜ytkownik坦w o podobnych
cechach
17. Techniki rekomendacji
Oparte na u甜ytkowniku (user-based) [1]
znalezienie u甜ytkownik坦w o podobnych cechach
np. algorytm K-najbli甜szych ssiad坦w z funkcj odlegoci:
D(u,v) = dwiek(u,v) + dpec(u,v) + dhobby(u,v) + ...
dwiek(u,v) = | u.wiek v.wiek | / max_roznica_wiek
rekomendacja przedmiot坦w wybieranych przez u甜ytkownik坦w o podobnych
cechach
np. rednia wa甜ona ocen ssiad坦w
Pa , j=
r u , jw a , j , w a , j =min
1
, max waga
wa , u D a , u
18. Techniki rekomendacji
Niespersonalizowane (non-personalized) oraz oparte na
u甜ytkowniku (user-based) [1]
Zalety
mo甜liwo obliczenia rekomendacji bez koniecznoci zebrania informacji
na temat cech przedmiot坦w oraz preferencji i gust坦w u甜ytkownika
Wady i problemy
niski stopie personalizacji rekomendacji
niewystarczajcy wsp坦czynnik trafnoci rekomendacji
19. Techniki rekomendacji
Oparte na zawartoci (content-based) [1]
Rekomendacja przedmiot坦w o podobnych cechach, jak te przedmioty, kt坦rymi
u甜ytkownik by w przeszoci zainteresowany.
cechy przedmiot坦w: np. film - rodzaj, re甜yser, obsada, opis, sowa kluczowe,
nagrody itd.
zebranie informacji na temat cech przedmiot坦w
znalezienie najbardziej podobnych przedmiot坦w do preferowanych wczeniej
przez u甜ytkownika
rekomendacja przedmiot坦w najbardziej pasujcych do profilu u甜ytkownika
20. Techniki rekomendacji
Oparte na zawartoci (content-based)
zebranie informacji na temat cech przedmiot坦w
najczciej wykorzystywane s tekstowe opisy przedmiot坦w za pomoc
s坦w kluczowych, np.
system rekomendacji stron internetowych Fab reprezentuje stron
internetow za pomoc 100 najistotniejszych s坦w
system rekomendacji ksi甜ek LIBRA reprezentuje ksizke za pomoc
wektora zbior坦w s坦w kluczowych tzn.
ksizka = [autor, tytu, temat, opis, ...]
temat = [...], opis = [...]
internetowe bazy danych, np. http://www.imdb.com/
booty intenetowe
21. Techniki rekomendacji
Oparte na zawartoci (content-based) [3]
zebranie informacji na temat cech przedmiot坦w
miara poziomu istotnoci (wa甜noci) sowa k i w dokumencie dj
term frequency/inverse document frequency (TF-IDF)
N - liczba rekomendowanych dokument坦w
ni - ilo dokument坦w, w kt坦rych wystpuje sowo kluczowe ki
fij - ilo wystpie sowa kluczowego ki w dokumencie dj
f i, j
TF i , j = - frekwencja sowa ki w dokumencie dj
max f z , j
f z, j d j
N
IDF i =log - odwrotna frekwencja dokumentu dla sowa ki
ni
w i , j =TF i , j IDF i - waga sowa ki w dokumencie dj
content d j =[w 1, j , w2, j ,... , w m , j ] - opis dokumentu dj
22. Techniki rekomendacji
Oparte na zawartoci (content-based)
okrelenie profilu u甜ytkownika na podstawie zebranych danych
user_profile(c) = [wc1, wc2, ..., wcm], wektor wag, gdzie waga wci oznacza
poziom istotnoci sowa kluczowego ki dla u甜ytkownika c.
rednie wagi s坦w kluczowych w mierze TF-IDF
prawdopodobiestwa istotnoci s坦w kluczowych obliczone przez sie
Bayessowska
rekomendacja przedmiot坦w najbardziej pasujcych do profilu u甜ytkownika
u(c,i) = score(user_profile(c), content(i))
cosinus kta midzy wektorami
w w
c i
u c ,i =cos c , i =
w w
c i
w w
23. Techniki rekomendacji
Oparte na zawartoci (content-based)
inne metody wykorzystywane w rekomendacji opartej na zawartoci
obliczanie funkcji u甜ytecznoci z wykorzystaniem pewnego modelu
wyuczonego na podstawie danych treningowych
naiwny klasyfikator bayessowski
oszacowuje prawdopodbiestwo, 甜e dany przedmiot p nale甜y do
j
pewnej klasy Ci (np. odpowiedni, nieodpowiedni) na podstawie
danego zbioru s坦w kluczowych k1,j,..., kn,j opisujcych przedmiot pj
P p j C i = PC i | k 1, j ...k n , j
przy (upraszczajcym) zao甜eniu niezale甜noci s坦w kluczowych
P p j C i =P C i x P k x , j |C i
wysoka trafno klasyfikacji
24. Techniki rekomendacji
Oparte na zawartoci (content-based)
Wady i problemy
ograniczona analiza zawartoci
konieczno reprezentowania opisu przedmiotu w formie
umo甜liwiajcej jego automatyczn analiz przez komputer (np. tekst)
lub wprowadzenia go rcznie
trudnoci w analizie zawartoci niekt坦rych przedmiot坦w np. obraz坦w,
d添wik坦w, strumieni video
nie rozr坦znianie r坦甜nych przedmiot坦w reprezentowanych przez
identyczne zbiory cech (nieuwzgldnianie jakoci przedmiotu)
25. Techniki rekomendacji
Oparte na zawartoci (content-based)
Wady i problemy
zbyt wysoka specjalizacja
rekomendacja jedynie dla przedmiot坦w pasujcych do profilu
u甜ytkownika (zbyt jednorodne alternatywy, brak niespodziewanych
rekomendacji)
wysokie prawdopodobiestwo rekomendacji niemal甜e identycznych
przedmiot坦w (np. newsy opisujce te same wydarzenie)
problem nowego u甜ytkownika (new user problem)
niemo甜liwo udzielenia trafnych rekomendacji dla u甜ytkownika, kt坦ry
nie oceni wystarczajco du甜ej liczby przedmiot坦w
26. Techniki rekomendacji
Kolaboratywne filtrowanie oparte na u甜ytkowniku
(user-based collaborative filtering) [1]
rekomendacja przedmiot坦w, kt坦rymi byli zainteresowani inni u甜ytkownicy o
podobnych preferencjach i oczekiwaniach
analogia do ustnej rekomendacji
oceny u甜ytkownik坦w, dane sprzeda甜y, ogldalno itd.
zebranie informacji na temat gust坦w u甜ytkownika
znalezienie u甜ytkownik坦w o najbardziej podobnych preferencjach i gustach
rekomendacja na podstawie preferencji podobnych u甜ytkownik坦w
27. Techniki rekomendacji
Kolaboratywne filtrowanie oparte na u甜ytkowniku
(user-based collaborative filtering)
znalezienie u甜ytkownik坦w o najbardziej podobnych preferencjach i
oczekiwaniach
I u , v ={i I : ru ,i , r v , i }
wsp坦czynnik korelacji Pearsona
r u , i r u r v , i r v
iI u ,v
similarity u , v =
r u ,i r u 2 r v , ir v 2
iI u , v iI u , v
cosinus kta midzy wektorami
u =[ r u ,i : r u , i I u , v ] ,
w v =[r v , i : r v ,i I u , v ]
w
w w
uv
similarity u , v =cosu , v =
w w
u v
w w
28. Techniki rekomendacji
Kolaboratywne filtrowanie oparte na u甜ytkowniku
(user-based collaborative filtering) [3]
rekomendacja na podstawie preferencji podobnych u甜ytkownik坦w
1
r u , i=
N
r u ' ,i
u ' U '
r u , i=k u similarity u , u ' r u ' ,i
u ' U '
r u , i= r u k u
similarity u , u' r u ' , i r ' (uwzgldnienie u甜ycia
u
u ' U '
r坦甜nych skali ocen przez r坦甜nych u甜ytkownik坦w)
k u =1/ similarity u , u'
u ' U '
r u - rednia ocen u甜ytkownika u
29. Techniki rekomendacji
Kolaboratywne filtrowanie oparte na u甜ytkowniku
(user-based collaborative filtering)
Zalety
mo甜liwo rekomendacji produkt坦w, bez koniecznoci zebrania informacji
na temat ich atrybut坦w, cech.
mo甜liwo rekomendacji produkt坦w, kt坦rych atrybuty s niedostpne lub
trudne w analizie np. obrazy, d添wiki, idee, opinie.
mo甜liwo rekomendacji przypadkowych, ale odpowiadajcych
preferencjom u甜ytkownika przedmiot坦w
30. Techniki rekomendacji
Kolaboratywne filtrowanie oparte na u甜ytkowniku
(user-based collaborative filtering)
Wady i problemy
new user problem
new item problem - brak mo甜liwoci rekomendacji nowych przedmiot坦w
zanim nie zostan one ocenione przez wystarczajco du甜 liczb
u甜ytkownik坦w
sparsity problem - brak ocen danego u甜ytkownika dla zdecydowanej
wiszoci przedmiot坦w; rzadka macierz u甜ytkownik-przedmiot
niewystarczajco dobre rekomendacje dla u甜ytkownik坦w o
zr坦甜nicowanych opiniach lub nietypowych preferencjach.
31. Techniki rekomendacji
Hybrydowe systemy rekomendacji (hybrid
recommender systems)
Rekomendacja przedmiot坦w z jednoczesnym wykorzystaniem r坦甜nych technik
rekomendacji (najczciej - opartej na zawartoci i kolaboratywnego
filtrowania) w celu uniknicia ogranicze zwizanych z ich niezale甜nym
stosowaniem.
Przykad: Content-Boosted Collaborative Filtering
poprawa istniejcych danych na temat u甜ytkownik坦w i przedmiot坦w
poprzez wykorzystanie cechy osobistych u甜ytkownik坦w oraz zawartoci
przedmiot坦w (wygenerowanie pseudo-ocen)
spersonalizowane rekomendacje przy u甜ytciu kolaboratywnego filtrowania
lepsze wyniki ni甜 te, kt坦re daj niezale甜nie dziaajce rekomendacje oparte
na zawartoci, kolaboratywne filtrowanie oraz proste systemy hybrydowe
32. Systemy rekomendacji
Plan prezentacji
Wprowadzenie
Metody zbierania informacji o u甜ytkowniku
Techniki rekomendacji
Problemy, trudnoci i wyzwania
Przykady aplikacji
33. Problemy, trudnoci i wyzwania
Problemy, trudnoci i ich typowe rozwizania
wielowymiarowe rekomendacje [3]
uwzgldnienie dodatkowych kontekstowych informacji (np. dzie
tygodnia, pora roku, miejsce)
zdefiniowanie funkcji u甜ytecznoci nad wielowymiarow dziedzin
D 1 ... D n zamiast dwuwymiarowej u甜ytkownik przedmiot tj.
u: D1 ... D n R
np. d3 - miejsce ogldania filmu (kino, mieszkanie); d4 - czas (dzie
roboczy, weekend, ranek, wiecz坦r); d5 - osoby towarzyszce (rodzice,
dziewczyna, przyjaciele)
redukcja do problemu dwuwymiarowej rekomendacji przez wybranie
element坦w speniajcych dodatkowe kontekstowe kryteria (tagi tekstowe)
34. Problemy, trudnoci i wyzwania
Problemy, trudnoci i ich typowe rozwizania
multikryterialne oceny [3]
wykorzystanie ocen wielu kryteri坦w przy kocowej ocenie danego przedmiotu
np. rekomendacja restauracji - ocena jedzenia, dekoracji oraz serwisu
kombinacja liniowa ocen wszystkich kryteri坦w
optymalizacja oceny nawa甜niejszego kryterium, traktujc pozostae jako
stae, niech np.
fc(r), dc(r), sc(r) oceny u甜ytkownika c dotyczce odpowiednio jedzenia,
dekoracji i serwisu w restarauracji r
wybranie fc(r) jako najwa甜niejszego kryterium oceny restauracji r
znalezienie restauracji r o najwikszej wartoci fc(r), t.甜e dc(r)>d i sc(r)>s
konieczno szacowania niekt坦rych wartoci spor坦d fc(r), dc(r), sc(r)
35. Problemy, trudnoci i wyzwania
Problemy, trudnoci i ich typowe rozwizania
zoliwi u甜ytkownicy [3]
oszukiwanie system坦w rekomendacji w celu zwikszenia popularnoci
wasnych przedmiot坦w
zatrudnianie u甜ytkownik坦w wysoko oceniajcych wskazane
przedmioty
wykorzystanie bot坦w internetowych generujcych sztuczne
zainteresowanie wskazanymi przedmiotami
inwazyjno - trudnoci w jawnym zbieraniu informacji
profilowanie doniemane - zbieranie i analizowanie np. danych sprzeda甜y,
czstoci i czasu ogldania przedmiotu, sekwencji klikni na stronie
36. Problemy, trudnoci i wyzwania
Problemy, trudnoci i ich typowe rozwizania
zbyt wysoka specjalizacja
unikanie rekomendacji zbyt podobnych przedmiot坦w do tych, kt坦rymi
u甜ytkownik by zainteresowany w przeszoci
cold-start oraz sparsity problem
zbyt mao danych w pocztkowej fazie dziaania systemu (new user, new
item problem)
wykorzystanie cech osobowych u甜ytkownika oraz zawartoci przedmiotu
pseudo-oceny dla przedmiot坦w, kt坦re nie zostay ocenione przez danego
u甜ytkownika
38. Problemy, trudnoci i wyzwania
The Netflix $1 Million Prize
konkurs ogoszony przez Netflix, internetow wypo甜yczalnie film坦w w
pa添dzierniku 2006 roku.
zasady i idea konkursu
poprawa wsp坦czynnika trafnoci systemu rekomendacji Netfixa o 10%
udostpnienie bazy danych klient坦w (ponad 100 milion坦w ocen, 17,770
film坦w, 480,189 os坦b) jako zbioru treningowego
testowanie system坦w na aktualizowanych (utajnionych) danych
nagroda - 1.000.000 $ (wci甜 do wygrania!!)
dotychczasowe najlepsze wyniki
1. 8.50%, B.Bell i Y.Koren - AT&T Research,
8. 7.62%, Arek Paterek Uniwersytet Warszawski
40. Aplikacje
Last.fm
internetowa radiostacja i system muzycznych rekomendacji
ponad 20 milion坦w aktywnych u甜ytkownik坦w z 232 kraj坦w
rekomendacje bazowane na podstawie odsuchiwanych piosenek i gustach
muzycznych ssiad坦w
mo甜liwo rekomendacji przez u甜ytkownik坦w wybranych wykonawc坦w,
utwor坦w lub album坦w muzycznych innym u甜ytkownikom
mo甜liwo tagowania artyst坦w, album坦w i utwor坦w, dziki czemu mo甜na
sucha muzyki oznaczonej w wybrany spos坦b np. early british rock,
piosenkarze, kt坦rych X by lubi
41. Aplikacje
Levis / Style Finder
rekomendacja produkt坦w firmy odzie甜owej
Levi StrausTM
wymagane informacje na temat pci oraz
ocena minimum 4 napis坦w, subkategorii
spor坦d kategorii: muzyka, wygld, zabawa w
skali 1-7.
kolaboratywne filtrowanie oparte na
u甜ytkowniku (user-based collaborative
filtering)
prezentacja listy Top-6 przedmiot坦w
wzrost rednio o 33 % warto zakup坦w
realizowanych w sklepie internetowym
87% badanych zadeklarowao, i甜 kupioby
rekomendowany produkt.
43. Aplikacje
hakia
wyszukiwarka internetowa, kt坦ra
umo甜liwia kontakt z osobami
szukajcymi informacji na
podobny temat
rekomendacje przedstawiane
przez ludzi (silna analogia do
ustnej promocji przedmiotu)
45. Systemy rekomendacji
Bibliografia
[1] What is a Recommender System?, Juntae Kim
[2] Personalizacja portalu jako instrument marketingu,
http://marketing.nf.pl/Artykul/7623/Personalizacja-portalu-jako-instrument-marketingu/
[3] Toward the Next Generation of Recommender Systems: A Survey of the
State-of-the-Art and Possible Extensions, Gediminas Adomavicius, Alexander
Tuzhilin
Content-Boosted Collaborative Filtering for Improved Recommendations, Prem
Melville and Raymond J. Mooney and Ramadass Nagarajan
Recommender Systems in E-Commerce, J. Ben Schafer, Joseph Konstan, John
Riedl
Explanation for Recommender Systems: Satisfaction vs. Promotion, Mustafa
Bilgic