際際滷

際際滷Share a Scribd company logo
Advanced
Web Intelligence
21 Ottobre 2010
Prof. Carlo Tasso
Dott. Paolo Omero
Part 1Part 1  prof. Carlo Tassoprof. Carlo Tasso
WEBWEB 2.0, ARTIFICIAL INTELLIGENCE,2.0, ARTIFICIAL INTELLIGENCE,
AND SEMANTIC WEBAND SEMANTIC WEB
Advanced web intelligence, Carlo Tasso, Paolo Omero, infoFACTORY.
Advanced web intelligence, Carlo Tasso, Paolo Omero, infoFACTORY.
息 C.Tasso - 2009
6
WHAT IS WEB 2.0?WHAT IS WEB 2.0?
 The term Web 2.0 refers to a state of
evolution of the Web, which is
characterized by new ingredients, new
approaches, new balances,
 UGC, easy publication and sharing of user generated
contents
 (Pro)active participation
 Openess and easy access
 Social networks, communities, c. of practice
 Folksonimies and social tagging
 Mass collaboration, wisdom of crowd
 Content remixing, syndication, mashup, aggregator
 Web as a platform, service oreinted architecture
 
 BLOG, WIKI, feed RSS, TAG, AJAX, Web Service, XML, 
 Creative Commons, new Business Models
CHARACTERISTICS OF WEB 2.0 SITES AND PORTALS
TIME, 13 DIC. 2006
THE PERSON OF THE YEAR
Advanced web intelligence, Carlo Tasso, Paolo Omero, infoFACTORY.
10
P.1 INFORMATION OVERLOADP.1 INFORMATION OVERLOAD
 UGC: A huge amount of new information
available online (140.000 new blogs
everyday [Technorati, 2008])
 Accessing online information becomes
harder, searching is even less effective
 key-word based&one-size fits all search
engines are not accurate
21/10/2010 11
FROM INFORMATION PRODUCERS TO
INFORMATION CONSUMERS
(WEB 1.0)
1111
authors,
Information
Producers
Ideas, concepts, events, 
documents/multimedia docs./
/audio-video/
Information
Consumers
internediary
search
delivery
WEBWEB
SitesSites && PortalsPortals
12
 IN WEB 2.0
authors,
Information
Producers
Ideas, concepts, events, 
documents/multimedia docs./
/audio-video/
Information
Consumers
internediary
search
delivery
WEBWEB SitesSites && PortalsPortals
blogsblogs, social, social networksnetworks,, 
Active user
Active user
Active user
Active user
Active user
Active user Active user
Active user
Prosumer
UCG - User Generated Content
13
P.1 INFORMATION OVERLOADP.1 INFORMATION OVERLOAD againagain
In order to overcome the problem WE NEED:
 ANALYSING THE CONTENT OF A DOCUMENT
and UNDERSTANDING its TEXT
 PERSONALIZING THE INTERACTION
 New Web 2.0-specific innovative automatic tools are
required for accessing, filtering, monitoring the Web in a
personalized (user-oriented) way
14
P.2 NEW KNOWLEDGE IS AVAILABLE ONLINEP.2 NEW KNOWLEDGE IS AVAILABLE ONLINE
 Social networks, blogs, forum contain precious
knowledge which is strategic for many business
processes (knowledge management, marketing &
marketing intelligence, reputation management,
open innovation, cooperative knowledge
construction, decision making, etc.)
 Often knowledge is impicit: in the UGC, in the
relationships among the users, in the opinions, in
their tags,
15
P.2 NEW KNOWLEDGE IS AVAILABLE ONLINEP.2 NEW KNOWLEDGE IS AVAILABLE ONLINE againagain
 Current state-of-the-art requires new Web 2.0-
specific innovative automatic tools capable of
capturing this knowledge and deliver it to the
specific individual user interested in it.
16
WHAT IS ARTIFICIAL INTELLIGENCE?
AnAn interdisciplinaryinterdisciplinary sciencescience havinghaving the goalthe goal ofof
designingdesigning and buildingand building systemssystems whichwhich provideprovide aa
performanceperformance similarsimilar toto humanshumans in cognitivein cognitive
activitiesactivities typicaltypical ofof thethe humanhuman mind.mind.
Es.Es. UnderstandingUnderstanding NaturalNatural LanguageLanguage
MachineMachine LearningLearning
KnowledgeKnowledge--basedbased SystemsSystems
AutomaticAutomatic ReasoningReasoning
....
17
AREAS OF ARTIFICIAL INTELLIGENCE
RELEVANT FOR THE WEB
 Understanding Natural Language, Semantic
Analysis and Text Mining
 Intelligent content-based filtering
 Information extraction, opinion analysis,
sentiment analysis
 User Modeling & Personalization
18
 Understanding Natural Language, Semantic
Analysis and Text Mining
 Intelligent content-based filtering
 Information extraction, opinion analysis,
sentiment analysis
 User Modeling & Personalization
 
SEMANTIC
WEB
AREAS OF ARTIFICIAL INTELLIGENCE
RELEVANT FOR THE WEB
19
WHAT INNOVATION DO WE NEED?
 Going beyond a Web 2.0 as a repository, and exploiting Web
2.0 as a knowledge base
 Understanding concepts, content-based filtering, knowledge
editing, semantic tools
 Personalized interaction and personalized information
extraction
 Automatic intelligent agents which continuosly
garrison/monitor the Web on behalf of the specific individual
user and proactively deliver relevant captured
information/knowledge to him
 Content-based adaptation
20
RESEARCH AT THE AI LABRESEARCH AT THE AI LAB
OF THE UNIVERSITY OF UDINEOF THE UNIVERSITY OF UDINE
 Cognitive Filtering:
 Adaptive personalization:
 Web Monitoring
 Information Extraction
 Sentiment analysis
 Keywords extraction
 Ontological reasoning
21/10/201021
PERSONALIZED CONTENTPERSONALIZED CONTENT--BASEDBASED FILTERINGFILTERING
FOR WEB MONITORINGFOR WEB MONITORING
(da C.Tasso, P.Omero, La Personalizzazione
dei Contenuti WEB, 息 F.Angeli, Milano, 2002.)
Positive sample
docs
Negative
sample doc
Documents to be filtered
(html, xml, pdf, postscript,
doc, text, latex)
User PROFILE
Constructor
User
Profile
Conceptual
content of the
document
Linguistic/Semantic
Processor
MATCHING
Relevance Evaluation
Measure
Relevance
feedback
22
INFORMATION EXTRACTIONINFORMATION EXTRACTION
23
IE FROM RESEARCH PAPERSIE FROM RESEARCH PAPERS
Abstract
Citations
Bibilography
TitleAuthors
24
NAMED ENTITY RECOGNATION WITH ANNIE
25
SOCIAL NETWORK ANALYSIS OF UGCSOCIAL NETWORK ANALYSIS OF UGC
 Extracting/capturing knowledge from UCG
 Analysing social relationships in UGC: SNA
(Social Network Analysis) vs. Content-Based
Social Network Analysis (identifying similar
contents, who is saying what to whom,)
 Identifying influencers, apostles
26
27
28
29
AUTOMATIC TAGGINGAUTOMATIC TAGGING
(A FORM OF CLASSIFICATION)(A FORM OF CLASSIFICATION)
AUTOMATIC TAGGING OF WEB DOCUMENTSAUTOMATIC TAGGING OF WEB DOCUMENTS
AUTOMATIC TAGGING OF WEB DOCUMENTSAUTOMATIC TAGGING OF WEB DOCUMENTS
WARANGALWARANGAL--ANCIENT CAPITAL OFANCIENT CAPITAL OF
THE KAKATIYA DYNASTYTHE KAKATIYA DYNASTY
Warangal was the capital of a Hindu Shaivaite kingdom ruled by the Kakatiya dynasty from the 12th to the 14th
centuries. The old name of this newly formed city is Orugallu. Oru means one and Kallu means stone. The
entire city was carved in a single rock, hence the name Orukallu meaning 'one rock' (Ekasila nagaram in
Sanskrit). The Kakatiyas left many monuments, including an impressive fortress, four massive stone gateways,
the Swayambhu temple dedicated to Shiva, and the Ramappa temple situated near Ramappa Lake. The
cultural and administrative distinction of the Kakatiyas was mentioned by the famous traveller Marco Polo.
Famous or well-known rulers included Ganapathi Deva, Prathapa Rudra, and Rani (queen) Rudrama Devi. The
Mughal emperor Aurangzeb conquered Golconda in 1687, and it remained part of the Mughal empire until the
southern provinces of the empire split away to become the state of Hyderabad in 1724 which included the
Telangana region and some parts of Maharashtra and Karnataka.
The Orugallu Fort and Veyyi Stambhala Gudi (Thousand Pillar Temple) have history, architecture and sculpture
and are probably among the best of Indian temples. Kakatiya dynasty, that ruled Andhra region from 750 AD 
1325 AD  for 575 years, still lives in the ruins of the fort and almost intact temple. You can get a first hand of
the dynastys taste for sculpture in Veyyi Stambhala Gudi or 1000 Pillar Temple. It has a catchy and apt name.
Are there thousand pillars? Yes there are  of many varieties and sizes; some of them are even part of others!
The pillars that support the central Natya Mandapam (dance floor) are large and made of multiple blocks of
stone.
The temple is star shaped with three shrines devoted to Rudradeva (Shiva), Vishnu, and Surya (Sun).
Interestingly, the third deity is not Brahma who is part of the Trinity of God [as in the Trinity (which consists of
Brahma, Vishnu, and Shiva) in Suchindrum] because the Kakatiyas worshipped Lord Shiva and Lord Surya and
not so much Brahma. On the fourth side is Shivas vehicle, Nandi(Bull).
Ramappa Temple, also known as the Ramalingeswara temple lies in a valley at Palampet village. An
inscription in the temple dates it to the year 1213 and said to have been built by a General Recherla Rudra,
during the period of the Kakatiya ruler Ganapati Deva. This medieval temple is a Shivalaya (where Shiva is
worshipped) and named after the sculptor Ramappa, a Vishwakarma Brahmin Sthapathi of Karnataka State,
who built it rather that after its presiding deity, Ramalingeswara, perhaps to accent Shiva's importance as the
personal god of the avatar of Vishnu, Rama. The history says that it was taken 40 years to built this temple.
This beautiful temple, an example of brilliant Kakatiya dynasty art, Planned and sculpted by Vishwakarma
Brahmin Sthapathis was built on the classical pattern of being lifted above the world on a high star-shaped
platform. Intricate carvings line the walls and cover the pillars and ceilings. Starting at its base to its wall
panels, pillars and ceiling are sculpted figures drawn from Hindu mythology. The roof (garbhalayam) of the
temple is built with bricks, which are so light that they are able to float on water.
Source: http://www.chaitanyasagar.com/1000-pillar-temple-warangal-veyyi-stambala-gudi/
Text in the original
document
Text in the original
document
KEYPHRASES (TAGS) AUTOMATICALLY EXTRACTEDKEYPHRASES (TAGS) AUTOMATICALLY EXTRACTED
 hindu shaivaite kingdom 0.6615047945893939
 architecture and sculpture 0.6462045988970013
 traveller marco polo 0.6247734012518635
 veyyi stambhala gudi 0.5848111701653479
 thousand pillar temple 0.5397898000978497
 Kakatiya dynasty 0.9271316352052865
 Ramappa temple 0.7470127621276262
 natya mandapam 0.7379604534347338
 dance floor 0.7374536508871937
 ekasila nagaram 0.6269106407805886
 Prathapa Rudra 0.6035833336151533
 Rudrama Devi 0.6009746194783666
 telangana region 0.5891674518764781
 Kakatiya 0.9009401268086235
 dynasty 0.8795805371702549
 Warangal 0.8278609194389923
 hindu 0.8125176477886626
 shiva 0.767708850767499
 ramappa 0.7455088114557195
 sculpture 0.7439720685067907
 nandi 0.7287657618838087
Keyphrases
extracted from the
original document
Keyphrases
extracted from the
original document
Alloy,
Alloy Analyzer,
UML
OCL,
OCL Invariants,
Critical Systems,
UML Class
Diagram,
Invarinats,
Snapshots
For the given document, with the above all annotations, the new tag Software
design is also suggested to the user. This particular tag is neither presented in the
document nor in the earlier annotation lists.
Keyphrases
Software Engineering
Ontology Class hierarchy
DERIVING ABSTRACT CONCEPTS FOR SUGGESTING
TAGS BY MEANS OF ONTOLOGY MINING
35
SENTIMENT ANALYSISSENTIMENT ANALYSIS
36
SENTIMENT ANALYSIS: OUR EXPERIMENTSSENTIMENT ANALYSIS: OUR EXPERIMENTS
AND EVALUATIONSAND EVALUATIONS
37
WHAT THE BENEFITS OF AIWHAT THE BENEFITS OF AI FOR THE WEB?FOR THE WEB?
 More accurate and focused timely information
 Moving from information to knowledge
 Exploiting the knowledge of the (other) users
(folksonomies, )
 Automatic personalized (push) services,
overcoming one size fits all
 Better user satisfaction
 Increased productivity,
PartPart 22  Dr. PaoloDr. Paolo OmeroOmero
infoFACTORY srl 竪 il primo spin-off dellUniversit di Udine nel
campo dellICT. La societ vede la partecipazione diretta dellUniversit
di Udine nella compagine sociale e nasce dal Gruppo infoFACTORY
costituito nel 2000 dal prof. Carlo Tasso all'interno del Laboratorio di
Intelligenza Artificiale, da lui fondato nel 1984.
Nel corso degli anni il Gruppo ha svolto numerose attivit, sviluppando
alcune tecnologie proprietarie innovative che derivano dai progetti di
ricerca svolti nel Laboratorio di Intelligenza Artificiale dalla sua
fondazione.
infoFACTORY presenta un nuovo tipo di automazione focalizzato sulla
personalizzazione adattativa dei processi di accesso ai contenuti
digitali: ci嘆 include strumenti e servizi per il reperimento intelligente delle
informazioni, il filtraggio delle informazioni in base ai concetti in esse
contenuti, la classificazione, la valutazione e lanalisi semantica. Ogni
servizio fornito da infoFACTORY viene adattato alle specifiche esigenze
di ciascun cliente.
息 infoFACTORY Ottobre 2010 39
infoFACTORY
Universit di Udine - Polo Scientifico
Chi sono gli utenti online?
息 infoFACTORY Ottobre 2010
I social network raggiungono fasce sempre pi湛 vaste di
utenti: diminuisce la percentuale rappresentata dagli
under 18 mentre aumenta quella degli over 50
Esempio: Facebooks grow in global孫 audience numbers
41
e in Italia?
息 infoFACTORY Ottobre 2010 42
Fonte: http://it.nielsen.com/site/documents/9-MediaMonthlyReportSettembre.pdf
Tempo speso sui social media
息 infoFACTORY Ottobre 2010 43
Fonte:
http://blog.nielsen.com/niels
enwire/global/led-by-
facebook-twitter-global-
time-spent-on-social-media-
sites-up-82-year-over-year/
*Global data takes into
account the following
countries: U.S., U.K.,
Australia, Brazil, Japan,
Switzerland, Germany,
France, Spain and Italy
Social influence in Italia
息 infoFACTORY Ottobre 2010
(Fonte: Milward Brown, 2008 - Campione di 5000 interviste online)
I Social Media facilitano le
ricerche di informazioni
relative a
marche/prodotti/servizi,
amplificando gli effetti del
passaparola
Internet viene considerato il
mezzo/luogo pi湛 attendibile
per informarsi prima di
effettuare un acquisto,
passando dal terzo posto del
2007 al primo del 2008
44
Quanto consideri attendibili i seguenti mezzi/luoghi per
informarti PRIMA di effettuare un acquisto?
息 infoFACTORY Ottobre 2010
Una richiesta di maggiore interazione.
Per l'83% degli internauti, le aziende e i marchi dovrebbero sviluppare nuove
modalit di interazione con i propri clienti e quasi l'80% ritiene opportuna
una presenza attiva dei brand nei social media.
Focalizzazione sul marketing
Tra le iniziative che () destano maggiore interesse nelle aziende, e che
pensano di mettere in atto, i manager segnalano:
1. marketing online (67%)
2. corporate/brand communication (61%)
3. ascolto/monitoraggio del Web (57%)
Maggiore interazione online
45
http://www.b2b24.ilsole24ore.com/articoli/0,1254,24_ART_109476,00.html
Ricerca condotta da Cohn & Wolfe, con il supporto tecnico di Lightspeed Research, su oltre 200 consumatori
online tra i 18 e i 54 anni e su pi湛 di 80 manager di marketing e di comunicazione di aziende operanti in Italia.
息 infoFACTORY Ottobre 2010
SPONTANEE: Le conversazioni sul Web sono spontanee: gli utenti
esprimono liberamente la propria opinione e non sono guidate negli
argomenti;
IMPREVEDIBILI: Proprio per la loro spontaneit e per il fatto che il contesto non
竪 pilotato, le conversazioni possono far emergere aspetti e/o problematiche
inaspettati e imprevedibili: questi possono essere dei validi spunti per
attuare azioni correttive, reimpostare le campagne comunicative, dare nuova
conoscenza utile allo sviluppo di nuovi prodotti;
TEMPESTIVE:  possibile monitorare le conversazioni in tempo reale, e quindi
avere dei feedback rapidi riguardo le azioni intraprese sul mercato: oggi i
rumours vengono prima di tutto riportati sul Web, poi sui media tradizionali;
SPECIFICHE:  possibile analizzare lopinione dei diretti interessati:
soprattutto per quanto riguarda i mercati di nicchia, si ascoltano i reali
utilizzatori del prodotto/servizio (le nicchie non possono essere rappresentate
da campioni statistici di famiglie e di individui!).
Caratteristiche e valore
delle conversazioni online
46
息 infoFACTORY Ottobre 2010
FACILI DA PUBBLICARE: Ogni individuo pu嘆 esprimere opinioni e attivare delle
conversazioni, positive o negative, che possono diffondersi sul web anche molto
velocemente. (es. iPhone + FB + Twitter)
PERSISTENTI NEL TEMPO: Le opinioni espresse rimangono nella Rete per anni,
vengono indicizzate dai motori di ricerca e linkate da altri. La visibilit di una notizia
online che danneggia un brand non 竪 limitata nel tempo come succede per la carta
stampata ma 竪 persistente e sempre visibile: le opinioni possono essere consultate
e duplicate un numero infinito di volte.
INFLUENZANO I MASS MEDIA: Le conversazioni sul Web 2.0 possono anticipare
trend, informazioni o situazioni pericolose per lazienda che possono catturare
lattenzione dei mass media tradizionali.
Non ascoltare le conversazioni 竪 unoccasione perduta per le aziende: si tratta
delloccasione di conoscere la vita dei prodotti fuori dalle fabbriche, di comprendere
come vengono usati e perch辿 sono amati o odiati.
 loccasione di conoscere il proprio mercato e i propri
consumatori: parlare con i consumatori aiuta unazienda a
pensare ai propri prodotti in modo diverso, nuovo, a
comprendere il modo in cui li vedono coloro che li usano.
47
Caratteristiche e valore
delle conversazioni online
息 infoFACTORY Ottobre 2010 48
TECNOLOGIE DI ANALISI DEL TESTO
Crawling
Scraping
Filtering
Semantic Analysis
Classification
Sentiment Analysis
Social Network Analysis
息 infoFACTORY Ottobre 2010
A seconda degli obiettivi strategici 竪 possibile realizzare diverse analisi
tra loro correlate.
BRAND AWARNESS.
BRAND IMAGE.
BRAND EQUITY.
BRAND STRATEGY.
CONCORRENZA PERCEPITA.
NUOVI BISOGNI.
OPEN INOVATIONNUOVE IDEE PER MIGLIORARE IL PRODOTTO.
IMPATTO DI UNA CAMPAGNA DI COMUNICAZIONE.
MAPPATURA DEI LUOGHI.
MAPPATURA DEGLI OPINION LEADER.
DISINFORMAZIONE SUL PRODOTTO.
Maggiori dettagli su www.infofactory.it
49
Monitoraggio delle
Conversazioni online
息 infoFACTORY Ottobre 2010
La pubblicit crea interesse e fa conoscere un prodotto.
La buona reputazione online lo fa vendere.
 possibile misurare la reputazione di un prodotto,
brand, evento, personaggio pubblico ecc. in termini
di opinioni positive/negative su specifici parametri
di analisi.
50
Reputation Management
息 infoFACTORY Ottobre 2010
Alcuni argomenti di interesse sociale (Crisi economica,
gestione rifiuti, energia nucleare, aborto, ecc.)
possono essere monitorati per analizzare lo stato e i
cambiamenti del clima sociale.
51
Analisi del clima sociale
COSA
Quali tematiche sono pi湛 discusse nel tempo? Ci sono tematiche
emergenti da considerare? Vi 竪 disinformazione sullargomento?
CHI
Quali sono le tipologie di persone che partecipano alle discussioni?
Opinion leader e influencer? Ci sono categorie di persone
particolarmente coinvolte? Si possono contattare?
COME
Le discussioni/opinioni sono positive o negative? Su quali aspetti in
particolare? Qual 竪 il grado di carica emotiva degli utenti?
DOVE
Quali sono i luoghi online in cui sono presenti le discussioni? Quali sono i
luoghi pi湛 importanti e con pi湛 alta capacit di propagazione della
notizia? Dove si stanno espandendo le discussioni?
QUANDO
Evoluzione nel tempo? Picchi di pressione mediatica?
息 infoFACTORY Ottobre 2010
Le azioni che riguardano la competitive intelligence
ossia la definizione, la raccolta, lanalisi e la
distribuzione di informazioni di intelligence
riguardo prodotti, concorrenti, tecnologie, clienti ed
altri aspetti dellambiente competitivo delle aziende,
possono essere supportate da nuovi strumenti e
metodologie che utilizzano il Web.
52
Competitive Intelligence
Fornitori, Materiali,
Tecnologie,
Mappa e analisi dei Competitor,
identificazione nuovi competitor,
identificazione punti deboli dei prodotti concorrenti,
identificazione movimenti aziendali,
rumors su nuove tecnologie, ecc.
Paper scientifici, report su
nuove tecnologie, news
finanziarie, rumors,
conversazioni di clienti,
concorrenti, partner, investitori
e molte altre sorgenti di
informazione possono essere
analizzate per estrarre dati e
informazioni che tra loro
relazionati possono fornire
conoscenza strutturata su
diversi aspetti come ad
esempio:
息 infoFACTORY Ottobre 2010
Quando la competitivit di unorganizzazione 竪 basata
sulla conoscenza di un settore tecnologico 竪
fondamentale essere aggiornati tempestivamente su
novit, cambiamenti e rumors..
53
Technological Monitoring
monitoraggi specifici di paper scientifici, community di esperti, opinioni
e valutazione di nuove tecnologie, notizie da laboratori di ricerca ed
altro ancora
息 infoFACTORY Ottobre 2010
I processi di gestione di una crisi possono essere
supportati da sistemi di analisi del Web in grado di
fornire in tempo reale una misurazione della
situazione
54
Crisis Management
Misurare tempestivamente la propagazione della notizie
Identificare nuove direzioni nelle discussioni e negli argomenti,
Mappare i luoghi informativi colpiti dalle notizie negative,
Identificare i principali denigratori,
Identificare luoghi e gruppi in cui le discussioni pericolose si sviluppano
pi湛 velocemente,
Studiare i propri interventi correttivi e i loro effetti.
Misurare la diffusione delle notizie pericolose ed analizzare il sentiment e la
carica emotiva degli interventi.
息 infoFACTORY Ottobre 2010 55
Crisis Management
息 infoFACTORY Ottobre 2010 56
Crisis Management
57
infoFACTORY srl - Parco Scientifico e Tecnologico L. Danieli - via J.Linussio 51, 33100 UDINE - Tel 0432-629723/4 - info@infofactory.it - www.infofactory.it
58

More Related Content

Advanced web intelligence, Carlo Tasso, Paolo Omero, infoFACTORY.

  • 1. Advanced Web Intelligence 21 Ottobre 2010 Prof. Carlo Tasso Dott. Paolo Omero
  • 2. Part 1Part 1 prof. Carlo Tassoprof. Carlo Tasso WEBWEB 2.0, ARTIFICIAL INTELLIGENCE,2.0, ARTIFICIAL INTELLIGENCE, AND SEMANTIC WEBAND SEMANTIC WEB
  • 6. 6 WHAT IS WEB 2.0?WHAT IS WEB 2.0? The term Web 2.0 refers to a state of evolution of the Web, which is characterized by new ingredients, new approaches, new balances,
  • 7. UGC, easy publication and sharing of user generated contents (Pro)active participation Openess and easy access Social networks, communities, c. of practice Folksonimies and social tagging Mass collaboration, wisdom of crowd Content remixing, syndication, mashup, aggregator Web as a platform, service oreinted architecture BLOG, WIKI, feed RSS, TAG, AJAX, Web Service, XML, Creative Commons, new Business Models CHARACTERISTICS OF WEB 2.0 SITES AND PORTALS
  • 8. TIME, 13 DIC. 2006 THE PERSON OF THE YEAR
  • 10. 10 P.1 INFORMATION OVERLOADP.1 INFORMATION OVERLOAD UGC: A huge amount of new information available online (140.000 new blogs everyday [Technorati, 2008]) Accessing online information becomes harder, searching is even less effective key-word based&one-size fits all search engines are not accurate
  • 11. 21/10/2010 11 FROM INFORMATION PRODUCERS TO INFORMATION CONSUMERS (WEB 1.0) 1111 authors, Information Producers Ideas, concepts, events, documents/multimedia docs./ /audio-video/ Information Consumers internediary search delivery WEBWEB SitesSites && PortalsPortals
  • 12. 12 IN WEB 2.0 authors, Information Producers Ideas, concepts, events, documents/multimedia docs./ /audio-video/ Information Consumers internediary search delivery WEBWEB SitesSites && PortalsPortals blogsblogs, social, social networksnetworks,, Active user Active user Active user Active user Active user Active user Active user Active user Prosumer UCG - User Generated Content
  • 13. 13 P.1 INFORMATION OVERLOADP.1 INFORMATION OVERLOAD againagain In order to overcome the problem WE NEED: ANALYSING THE CONTENT OF A DOCUMENT and UNDERSTANDING its TEXT PERSONALIZING THE INTERACTION New Web 2.0-specific innovative automatic tools are required for accessing, filtering, monitoring the Web in a personalized (user-oriented) way
  • 14. 14 P.2 NEW KNOWLEDGE IS AVAILABLE ONLINEP.2 NEW KNOWLEDGE IS AVAILABLE ONLINE Social networks, blogs, forum contain precious knowledge which is strategic for many business processes (knowledge management, marketing & marketing intelligence, reputation management, open innovation, cooperative knowledge construction, decision making, etc.) Often knowledge is impicit: in the UGC, in the relationships among the users, in the opinions, in their tags,
  • 15. 15 P.2 NEW KNOWLEDGE IS AVAILABLE ONLINEP.2 NEW KNOWLEDGE IS AVAILABLE ONLINE againagain Current state-of-the-art requires new Web 2.0- specific innovative automatic tools capable of capturing this knowledge and deliver it to the specific individual user interested in it.
  • 16. 16 WHAT IS ARTIFICIAL INTELLIGENCE? AnAn interdisciplinaryinterdisciplinary sciencescience havinghaving the goalthe goal ofof designingdesigning and buildingand building systemssystems whichwhich provideprovide aa performanceperformance similarsimilar toto humanshumans in cognitivein cognitive activitiesactivities typicaltypical ofof thethe humanhuman mind.mind. Es.Es. UnderstandingUnderstanding NaturalNatural LanguageLanguage MachineMachine LearningLearning KnowledgeKnowledge--basedbased SystemsSystems AutomaticAutomatic ReasoningReasoning ....
  • 17. 17 AREAS OF ARTIFICIAL INTELLIGENCE RELEVANT FOR THE WEB Understanding Natural Language, Semantic Analysis and Text Mining Intelligent content-based filtering Information extraction, opinion analysis, sentiment analysis User Modeling & Personalization
  • 18. 18 Understanding Natural Language, Semantic Analysis and Text Mining Intelligent content-based filtering Information extraction, opinion analysis, sentiment analysis User Modeling & Personalization SEMANTIC WEB AREAS OF ARTIFICIAL INTELLIGENCE RELEVANT FOR THE WEB
  • 19. 19 WHAT INNOVATION DO WE NEED? Going beyond a Web 2.0 as a repository, and exploiting Web 2.0 as a knowledge base Understanding concepts, content-based filtering, knowledge editing, semantic tools Personalized interaction and personalized information extraction Automatic intelligent agents which continuosly garrison/monitor the Web on behalf of the specific individual user and proactively deliver relevant captured information/knowledge to him Content-based adaptation
  • 20. 20 RESEARCH AT THE AI LABRESEARCH AT THE AI LAB OF THE UNIVERSITY OF UDINEOF THE UNIVERSITY OF UDINE Cognitive Filtering: Adaptive personalization: Web Monitoring Information Extraction Sentiment analysis Keywords extraction Ontological reasoning
  • 21. 21/10/201021 PERSONALIZED CONTENTPERSONALIZED CONTENT--BASEDBASED FILTERINGFILTERING FOR WEB MONITORINGFOR WEB MONITORING (da C.Tasso, P.Omero, La Personalizzazione dei Contenuti WEB, 息 F.Angeli, Milano, 2002.) Positive sample docs Negative sample doc Documents to be filtered (html, xml, pdf, postscript, doc, text, latex) User PROFILE Constructor User Profile Conceptual content of the document Linguistic/Semantic Processor MATCHING Relevance Evaluation Measure Relevance feedback
  • 23. 23 IE FROM RESEARCH PAPERSIE FROM RESEARCH PAPERS Abstract Citations Bibilography TitleAuthors
  • 25. 25 SOCIAL NETWORK ANALYSIS OF UGCSOCIAL NETWORK ANALYSIS OF UGC Extracting/capturing knowledge from UCG Analysing social relationships in UGC: SNA (Social Network Analysis) vs. Content-Based Social Network Analysis (identifying similar contents, who is saying what to whom,) Identifying influencers, apostles
  • 26. 26
  • 27. 27
  • 28. 28
  • 29. 29 AUTOMATIC TAGGINGAUTOMATIC TAGGING (A FORM OF CLASSIFICATION)(A FORM OF CLASSIFICATION)
  • 30. AUTOMATIC TAGGING OF WEB DOCUMENTSAUTOMATIC TAGGING OF WEB DOCUMENTS
  • 31. AUTOMATIC TAGGING OF WEB DOCUMENTSAUTOMATIC TAGGING OF WEB DOCUMENTS
  • 32. WARANGALWARANGAL--ANCIENT CAPITAL OFANCIENT CAPITAL OF THE KAKATIYA DYNASTYTHE KAKATIYA DYNASTY Warangal was the capital of a Hindu Shaivaite kingdom ruled by the Kakatiya dynasty from the 12th to the 14th centuries. The old name of this newly formed city is Orugallu. Oru means one and Kallu means stone. The entire city was carved in a single rock, hence the name Orukallu meaning 'one rock' (Ekasila nagaram in Sanskrit). The Kakatiyas left many monuments, including an impressive fortress, four massive stone gateways, the Swayambhu temple dedicated to Shiva, and the Ramappa temple situated near Ramappa Lake. The cultural and administrative distinction of the Kakatiyas was mentioned by the famous traveller Marco Polo. Famous or well-known rulers included Ganapathi Deva, Prathapa Rudra, and Rani (queen) Rudrama Devi. The Mughal emperor Aurangzeb conquered Golconda in 1687, and it remained part of the Mughal empire until the southern provinces of the empire split away to become the state of Hyderabad in 1724 which included the Telangana region and some parts of Maharashtra and Karnataka. The Orugallu Fort and Veyyi Stambhala Gudi (Thousand Pillar Temple) have history, architecture and sculpture and are probably among the best of Indian temples. Kakatiya dynasty, that ruled Andhra region from 750 AD 1325 AD for 575 years, still lives in the ruins of the fort and almost intact temple. You can get a first hand of the dynastys taste for sculpture in Veyyi Stambhala Gudi or 1000 Pillar Temple. It has a catchy and apt name. Are there thousand pillars? Yes there are of many varieties and sizes; some of them are even part of others! The pillars that support the central Natya Mandapam (dance floor) are large and made of multiple blocks of stone. The temple is star shaped with three shrines devoted to Rudradeva (Shiva), Vishnu, and Surya (Sun). Interestingly, the third deity is not Brahma who is part of the Trinity of God [as in the Trinity (which consists of Brahma, Vishnu, and Shiva) in Suchindrum] because the Kakatiyas worshipped Lord Shiva and Lord Surya and not so much Brahma. On the fourth side is Shivas vehicle, Nandi(Bull). Ramappa Temple, also known as the Ramalingeswara temple lies in a valley at Palampet village. An inscription in the temple dates it to the year 1213 and said to have been built by a General Recherla Rudra, during the period of the Kakatiya ruler Ganapati Deva. This medieval temple is a Shivalaya (where Shiva is worshipped) and named after the sculptor Ramappa, a Vishwakarma Brahmin Sthapathi of Karnataka State, who built it rather that after its presiding deity, Ramalingeswara, perhaps to accent Shiva's importance as the personal god of the avatar of Vishnu, Rama. The history says that it was taken 40 years to built this temple. This beautiful temple, an example of brilliant Kakatiya dynasty art, Planned and sculpted by Vishwakarma Brahmin Sthapathis was built on the classical pattern of being lifted above the world on a high star-shaped platform. Intricate carvings line the walls and cover the pillars and ceilings. Starting at its base to its wall panels, pillars and ceiling are sculpted figures drawn from Hindu mythology. The roof (garbhalayam) of the temple is built with bricks, which are so light that they are able to float on water. Source: http://www.chaitanyasagar.com/1000-pillar-temple-warangal-veyyi-stambala-gudi/ Text in the original document Text in the original document
  • 33. KEYPHRASES (TAGS) AUTOMATICALLY EXTRACTEDKEYPHRASES (TAGS) AUTOMATICALLY EXTRACTED hindu shaivaite kingdom 0.6615047945893939 architecture and sculpture 0.6462045988970013 traveller marco polo 0.6247734012518635 veyyi stambhala gudi 0.5848111701653479 thousand pillar temple 0.5397898000978497 Kakatiya dynasty 0.9271316352052865 Ramappa temple 0.7470127621276262 natya mandapam 0.7379604534347338 dance floor 0.7374536508871937 ekasila nagaram 0.6269106407805886 Prathapa Rudra 0.6035833336151533 Rudrama Devi 0.6009746194783666 telangana region 0.5891674518764781 Kakatiya 0.9009401268086235 dynasty 0.8795805371702549 Warangal 0.8278609194389923 hindu 0.8125176477886626 shiva 0.767708850767499 ramappa 0.7455088114557195 sculpture 0.7439720685067907 nandi 0.7287657618838087 Keyphrases extracted from the original document Keyphrases extracted from the original document
  • 34. Alloy, Alloy Analyzer, UML OCL, OCL Invariants, Critical Systems, UML Class Diagram, Invarinats, Snapshots For the given document, with the above all annotations, the new tag Software design is also suggested to the user. This particular tag is neither presented in the document nor in the earlier annotation lists. Keyphrases Software Engineering Ontology Class hierarchy DERIVING ABSTRACT CONCEPTS FOR SUGGESTING TAGS BY MEANS OF ONTOLOGY MINING
  • 36. 36 SENTIMENT ANALYSIS: OUR EXPERIMENTSSENTIMENT ANALYSIS: OUR EXPERIMENTS AND EVALUATIONSAND EVALUATIONS
  • 37. 37 WHAT THE BENEFITS OF AIWHAT THE BENEFITS OF AI FOR THE WEB?FOR THE WEB? More accurate and focused timely information Moving from information to knowledge Exploiting the knowledge of the (other) users (folksonomies, ) Automatic personalized (push) services, overcoming one size fits all Better user satisfaction Increased productivity,
  • 38. PartPart 22 Dr. PaoloDr. Paolo OmeroOmero
  • 39. infoFACTORY srl 竪 il primo spin-off dellUniversit di Udine nel campo dellICT. La societ vede la partecipazione diretta dellUniversit di Udine nella compagine sociale e nasce dal Gruppo infoFACTORY costituito nel 2000 dal prof. Carlo Tasso all'interno del Laboratorio di Intelligenza Artificiale, da lui fondato nel 1984. Nel corso degli anni il Gruppo ha svolto numerose attivit, sviluppando alcune tecnologie proprietarie innovative che derivano dai progetti di ricerca svolti nel Laboratorio di Intelligenza Artificiale dalla sua fondazione. infoFACTORY presenta un nuovo tipo di automazione focalizzato sulla personalizzazione adattativa dei processi di accesso ai contenuti digitali: ci嘆 include strumenti e servizi per il reperimento intelligente delle informazioni, il filtraggio delle informazioni in base ai concetti in esse contenuti, la classificazione, la valutazione e lanalisi semantica. Ogni servizio fornito da infoFACTORY viene adattato alle specifiche esigenze di ciascun cliente. 息 infoFACTORY Ottobre 2010 39 infoFACTORY Universit di Udine - Polo Scientifico
  • 40. Chi sono gli utenti online? 息 infoFACTORY Ottobre 2010 I social network raggiungono fasce sempre pi湛 vaste di utenti: diminuisce la percentuale rappresentata dagli under 18 mentre aumenta quella degli over 50 Esempio: Facebooks grow in global孫 audience numbers 41
  • 41. e in Italia? 息 infoFACTORY Ottobre 2010 42 Fonte: http://it.nielsen.com/site/documents/9-MediaMonthlyReportSettembre.pdf
  • 42. Tempo speso sui social media 息 infoFACTORY Ottobre 2010 43 Fonte: http://blog.nielsen.com/niels enwire/global/led-by- facebook-twitter-global- time-spent-on-social-media- sites-up-82-year-over-year/ *Global data takes into account the following countries: U.S., U.K., Australia, Brazil, Japan, Switzerland, Germany, France, Spain and Italy
  • 43. Social influence in Italia 息 infoFACTORY Ottobre 2010 (Fonte: Milward Brown, 2008 - Campione di 5000 interviste online) I Social Media facilitano le ricerche di informazioni relative a marche/prodotti/servizi, amplificando gli effetti del passaparola Internet viene considerato il mezzo/luogo pi湛 attendibile per informarsi prima di effettuare un acquisto, passando dal terzo posto del 2007 al primo del 2008 44 Quanto consideri attendibili i seguenti mezzi/luoghi per informarti PRIMA di effettuare un acquisto?
  • 44. 息 infoFACTORY Ottobre 2010 Una richiesta di maggiore interazione. Per l'83% degli internauti, le aziende e i marchi dovrebbero sviluppare nuove modalit di interazione con i propri clienti e quasi l'80% ritiene opportuna una presenza attiva dei brand nei social media. Focalizzazione sul marketing Tra le iniziative che () destano maggiore interesse nelle aziende, e che pensano di mettere in atto, i manager segnalano: 1. marketing online (67%) 2. corporate/brand communication (61%) 3. ascolto/monitoraggio del Web (57%) Maggiore interazione online 45 http://www.b2b24.ilsole24ore.com/articoli/0,1254,24_ART_109476,00.html Ricerca condotta da Cohn & Wolfe, con il supporto tecnico di Lightspeed Research, su oltre 200 consumatori online tra i 18 e i 54 anni e su pi湛 di 80 manager di marketing e di comunicazione di aziende operanti in Italia.
  • 45. 息 infoFACTORY Ottobre 2010 SPONTANEE: Le conversazioni sul Web sono spontanee: gli utenti esprimono liberamente la propria opinione e non sono guidate negli argomenti; IMPREVEDIBILI: Proprio per la loro spontaneit e per il fatto che il contesto non 竪 pilotato, le conversazioni possono far emergere aspetti e/o problematiche inaspettati e imprevedibili: questi possono essere dei validi spunti per attuare azioni correttive, reimpostare le campagne comunicative, dare nuova conoscenza utile allo sviluppo di nuovi prodotti; TEMPESTIVE: possibile monitorare le conversazioni in tempo reale, e quindi avere dei feedback rapidi riguardo le azioni intraprese sul mercato: oggi i rumours vengono prima di tutto riportati sul Web, poi sui media tradizionali; SPECIFICHE: possibile analizzare lopinione dei diretti interessati: soprattutto per quanto riguarda i mercati di nicchia, si ascoltano i reali utilizzatori del prodotto/servizio (le nicchie non possono essere rappresentate da campioni statistici di famiglie e di individui!). Caratteristiche e valore delle conversazioni online 46
  • 46. 息 infoFACTORY Ottobre 2010 FACILI DA PUBBLICARE: Ogni individuo pu嘆 esprimere opinioni e attivare delle conversazioni, positive o negative, che possono diffondersi sul web anche molto velocemente. (es. iPhone + FB + Twitter) PERSISTENTI NEL TEMPO: Le opinioni espresse rimangono nella Rete per anni, vengono indicizzate dai motori di ricerca e linkate da altri. La visibilit di una notizia online che danneggia un brand non 竪 limitata nel tempo come succede per la carta stampata ma 竪 persistente e sempre visibile: le opinioni possono essere consultate e duplicate un numero infinito di volte. INFLUENZANO I MASS MEDIA: Le conversazioni sul Web 2.0 possono anticipare trend, informazioni o situazioni pericolose per lazienda che possono catturare lattenzione dei mass media tradizionali. Non ascoltare le conversazioni 竪 unoccasione perduta per le aziende: si tratta delloccasione di conoscere la vita dei prodotti fuori dalle fabbriche, di comprendere come vengono usati e perch辿 sono amati o odiati. loccasione di conoscere il proprio mercato e i propri consumatori: parlare con i consumatori aiuta unazienda a pensare ai propri prodotti in modo diverso, nuovo, a comprendere il modo in cui li vedono coloro che li usano. 47 Caratteristiche e valore delle conversazioni online
  • 47. 息 infoFACTORY Ottobre 2010 48 TECNOLOGIE DI ANALISI DEL TESTO Crawling Scraping Filtering Semantic Analysis Classification Sentiment Analysis Social Network Analysis
  • 48. 息 infoFACTORY Ottobre 2010 A seconda degli obiettivi strategici 竪 possibile realizzare diverse analisi tra loro correlate. BRAND AWARNESS. BRAND IMAGE. BRAND EQUITY. BRAND STRATEGY. CONCORRENZA PERCEPITA. NUOVI BISOGNI. OPEN INOVATIONNUOVE IDEE PER MIGLIORARE IL PRODOTTO. IMPATTO DI UNA CAMPAGNA DI COMUNICAZIONE. MAPPATURA DEI LUOGHI. MAPPATURA DEGLI OPINION LEADER. DISINFORMAZIONE SUL PRODOTTO. Maggiori dettagli su www.infofactory.it 49 Monitoraggio delle Conversazioni online
  • 49. 息 infoFACTORY Ottobre 2010 La pubblicit crea interesse e fa conoscere un prodotto. La buona reputazione online lo fa vendere. possibile misurare la reputazione di un prodotto, brand, evento, personaggio pubblico ecc. in termini di opinioni positive/negative su specifici parametri di analisi. 50 Reputation Management
  • 50. 息 infoFACTORY Ottobre 2010 Alcuni argomenti di interesse sociale (Crisi economica, gestione rifiuti, energia nucleare, aborto, ecc.) possono essere monitorati per analizzare lo stato e i cambiamenti del clima sociale. 51 Analisi del clima sociale COSA Quali tematiche sono pi湛 discusse nel tempo? Ci sono tematiche emergenti da considerare? Vi 竪 disinformazione sullargomento? CHI Quali sono le tipologie di persone che partecipano alle discussioni? Opinion leader e influencer? Ci sono categorie di persone particolarmente coinvolte? Si possono contattare? COME Le discussioni/opinioni sono positive o negative? Su quali aspetti in particolare? Qual 竪 il grado di carica emotiva degli utenti? DOVE Quali sono i luoghi online in cui sono presenti le discussioni? Quali sono i luoghi pi湛 importanti e con pi湛 alta capacit di propagazione della notizia? Dove si stanno espandendo le discussioni? QUANDO Evoluzione nel tempo? Picchi di pressione mediatica?
  • 51. 息 infoFACTORY Ottobre 2010 Le azioni che riguardano la competitive intelligence ossia la definizione, la raccolta, lanalisi e la distribuzione di informazioni di intelligence riguardo prodotti, concorrenti, tecnologie, clienti ed altri aspetti dellambiente competitivo delle aziende, possono essere supportate da nuovi strumenti e metodologie che utilizzano il Web. 52 Competitive Intelligence Fornitori, Materiali, Tecnologie, Mappa e analisi dei Competitor, identificazione nuovi competitor, identificazione punti deboli dei prodotti concorrenti, identificazione movimenti aziendali, rumors su nuove tecnologie, ecc. Paper scientifici, report su nuove tecnologie, news finanziarie, rumors, conversazioni di clienti, concorrenti, partner, investitori e molte altre sorgenti di informazione possono essere analizzate per estrarre dati e informazioni che tra loro relazionati possono fornire conoscenza strutturata su diversi aspetti come ad esempio:
  • 52. 息 infoFACTORY Ottobre 2010 Quando la competitivit di unorganizzazione 竪 basata sulla conoscenza di un settore tecnologico 竪 fondamentale essere aggiornati tempestivamente su novit, cambiamenti e rumors.. 53 Technological Monitoring monitoraggi specifici di paper scientifici, community di esperti, opinioni e valutazione di nuove tecnologie, notizie da laboratori di ricerca ed altro ancora
  • 53. 息 infoFACTORY Ottobre 2010 I processi di gestione di una crisi possono essere supportati da sistemi di analisi del Web in grado di fornire in tempo reale una misurazione della situazione 54 Crisis Management Misurare tempestivamente la propagazione della notizie Identificare nuove direzioni nelle discussioni e negli argomenti, Mappare i luoghi informativi colpiti dalle notizie negative, Identificare i principali denigratori, Identificare luoghi e gruppi in cui le discussioni pericolose si sviluppano pi湛 velocemente, Studiare i propri interventi correttivi e i loro effetti. Misurare la diffusione delle notizie pericolose ed analizzare il sentiment e la carica emotiva degli interventi.
  • 54. 息 infoFACTORY Ottobre 2010 55 Crisis Management
  • 55. 息 infoFACTORY Ottobre 2010 56 Crisis Management
  • 56. 57
  • 57. infoFACTORY srl - Parco Scientifico e Tecnologico L. Danieli - via J.Linussio 51, 33100 UDINE - Tel 0432-629723/4 - info@infofactory.it - www.infofactory.it 58