ݺߣ

ݺߣShare a Scribd company logo
‫دهنده‬ ‫ارائه‬:‫عسگریان‬ ‫احسان‬
asgarian@alum.sharif.edu
7/17/2017
 Goal-oriented (effectiveness driven)
 Any process that generates useful results that are non-
obvious is called “mining”.
 Keywords: “useful” + “non-obvious”
 Data isn’t necessarily massive
 Method-oriented (efficiency driven)
 Any process that involves extracting information from
massive data is called “mining”
 Keywords: “massive” + “pattern”
 Patterns aren’t necessarily useful
7/17/20172
‫منظور‬ ‫به‬ ‫متنی‬ ‫های‬‫داده‬ ‫اکتشافی‬ ‫تحلیل‬ ‫فرایند‬:
‫غیربدیهی‬ ‫و‬ ‫کیفیت‬ ‫با‬ ‫اطالعات‬ ‫استخراج‬
‫دانیم‬‫نمی‬ ‫را‬ ‫آنها‬ ‫جواب‬ ‫که‬ ‫هایی‬‫پرسش‬ ‫به‬ ‫پاسخ‬ ‫کردن‬ ‫پیدا‬(‫م‬ ‫الگوهای‬‫خفی‬)
7/17/20173
‫توص‬ ‫زیر‬ ‫بصورت‬ ‫توان‬‫می‬ ‫را‬ ‫کاوی‬ ‫متن‬ ‫کامپیوتر‬ ‫علم‬ ‫دیدگاه‬ ‫از‬‫کرد‬ ‫یف‬:
 Text Mining = Data Mining + Text Data
7/17/20174
7/17/20175
7/17/20176
0
10
20
30
40
50
60
70
80
90
Percentage
Collections of Text
Structured Data
7/17/20177
Finding Patterns
Finding
Knowledge/Information
Novel Non-Novel
Non-textual data
General
data-mining Exploratory
data analysis
Database
queries
Textual data
Computational
Linguistics
Information
retrieval
Text Mining
7/17/20178
Text Mining
Library & Info Science,
Society Analysis
Machine Learning
Pattern Recognition
Web Applications,
Marketing (User Interests),
Bioinformatics…
Statistics
Optimization
Applications
Information Retrieval
(Search Engine,
Information Extraction,…)
SIGIR, WWW, WSDM, CIKM
ICML, NIPS, UAI
NLP
ACL, EMNLP, COLING
Data Mining
KDD, ICDM, SDM
Algorithms
7/17/20179
NLP
•NLP techniques
•Document pre-processing (cleaning and preparing the documents)
•normalization, removal of extraneous information, error correction,
tokenization, POS tagging, etc.
IR
•IR techniques
•Document selection and filtering (Text2Matrix, Language Modeling)
•reduce the search space, semantically-enhanced IR techniques,
converting documents into the vector-space format
ML
•NLP / ML / statistical techniques
•Document processing (information extraction)
•NER, relation/event recognition, opinion mining etc.
7/17/201710
11
‫تعریف‬:
‫ماشینی‬‫طب‬ ‫زبان‬ ‫یک‬ ‫توسط‬ ‫شده‬ ‫بیان‬ ‫مفاهیم‬ ‫برداشت‬ ‫و‬ ‫درک‬ ‫فرایند‬ ‫کردن‬‫انسانی‬ ‫یعی‬
‫و‬ ‫گفتاری‬ ‫زبان‬ ‫پردازش‬ ‫منظور‬ ‫به‬ ‫رایانه‬ ‫از‬ ‫استفاده‬‫نوشتاری‬
‫دامنه‬:
‫نوشتاری‬
‫گفتار‬(‫تصویر‬ ‫و‬)
‫کاوی‬ ‫متن‬ ‫در‬ ‫استفاده‬ ‫از‬ ‫هدف‬:
‫متنی‬ ‫اطالعات‬ ‫پردازش‬ ‫بیشتر‬ ‫سرعت‬ ‫و‬ ‫ها‬‫داده‬ ‫حجم‬ ‫کاهش‬
‫چشم‬ ‫بهبود‬‫سیستم‬ ‫خروجی‬ ‫نتایج‬ ‫صحت‬ ‫و‬ ‫دقت‬ ‫در‬ ‫گیر‬
7/17/201712
‫آواشناسی‬(Phonetics):‫آوا‬ ‫سهطو‬ ‫ایهس‬ ‫در‬ ‫مطالعهه‬ ‫مورد‬ ‫واحد‬‫باشهد‬‫می‬.
‫ی‬ ‫تشه‬ ‫را‬ ‫انسهان‬ ‫گفتهار‬ ‫اصهوات‬ ‫مطالعه‬ ‫که‬ ‫است‬ ‫شناسی‬ ‫زبان‬ ‫از‬ ‫ای‬ ‫شاخه‬‫مهی‬ ‫ل‬
‫دهد‬.
‫واج‬‫یی‬‫شناسی‬(Phonology):‫واج‬ ‫سههطو‬ ‫ایههس‬ ‫در‬ ‫مطالعههه‬ ‫مههورد‬ ‫واحههد‬
‫باشد‬‫می‬.‫ت‬ ،‫واجهی‬ ‫کلمهه‬ ،‫هجا‬ ،‫پایه‬ ‫یا‬ ‫گام‬ ،‫گونه‬‫واج‬ ،‫واج‬ ،‫آوا‬ ‫مانند‬ ‫مسائلی‬ ،‫حوزه‬ ‫ایس‬ ‫در‬،‫یهه‬
‫گیرند‬‫می‬ ‫قرار‬ ‫بررسی‬ ‫مورد‬ ‫شعر‬ ‫وزن‬ ‫و‬ ‫رکس‬ ،‫آهنگ‬.
‫شناسی‬ ‫ریخت‬‫تکواژ‬ ‫یا‬‫شناسی‬(Morphology: )‫در‬ ‫مطالعهه‬ ‫مورد‬ ‫واحد‬
‫سطو‬ ‫ایس‬‫واژ‬ ‫ت‬(‫کلمه‬)‫باشد‬‫می‬.‫از‬ ‫بخشی‬‫زبان‬ ‫دستور‬‫ساخت‬ ‫کهه‬ ‫است‬‫واژه‬ ‫هههار‬
‫دهد‬‫می‬ ‫قرار‬ ‫تحلیل‬ ‫مورد‬ ‫را‬.
13
‫نحو‬(Syntax)‫جمله‬ ‫یا‬‫شناسی‬:‫سطو‬ ‫ایس‬ ‫در‬ ‫مطالعه‬ ‫مورد‬ ‫واحد‬‫عبارت‬‫ی‬‫ا‬
‫جمله‬‫باشد‬‫می‬.‫دانش‬ ‫به‬‫ی‬‫مطالعه‬‫به‬ ‫مربوط‬ ‫قواعد‬‫ی‬‫نحوه‬‫ک‬ ‫در‬ ‫و‬ ‫ترکیب‬‫هم‬ ‫نار‬
‫شهود‬‫می‬ ‫اطهالم‬ ‫زبهان‬ ‫یک‬ ‫در‬ ‫جمالت‬ ‫درک‬ ‫و‬ ‫ایجاد‬ ‫منظور‬ ‫به‬ ‫ها‬‫واژه‬ ‫آمدن‬.‫بهه‬
‫جمله‬ ‫مفهوم‬ ‫در‬ ‫آن‬ ‫تاثیر‬ ‫و‬ ‫جمله‬ ‫ساختار‬ ‫بررسی‬ ‫دیگر‬ ‫عبارت‬
‫یا‬‫ی‬‫معن‬‫یی‬‫ی‬‫شناس‬(Semantics):‫ها‬‫ه‬‫معن‬ ‫هطو‬‫ه‬‫س‬ ‫هس‬‫ه‬‫ای‬ ‫در‬ ‫هه‬‫ه‬‫مطالع‬ ‫هورد‬‫ه‬‫م‬ ‫هد‬‫ه‬‫واح‬
‫باشد‬‫می‬.‫است‬ ‫انسانی‬ ‫های‬‫زبان‬ ‫در‬ ‫معانی‬ ‫ی‬‫مطالعه‬ ‫و‬ ‫بررسی‬ ‫دانش‬.‫عبه‬ ‫بهه‬‫ارت‬
‫جمله‬ ‫مفهوم‬ ‫بر‬ ‫کلمات‬ ‫تاثیر‬ ‫و‬ ‫جمله‬ ‫در‬ ‫کلمات‬ ‫معانی‬ ‫بررسی‬ ‫دیگر‬
14
‫کاربردشناسی‬(Pragmatics: )‫قصد‬ ‫سطو‬ ‫ایس‬ ‫در‬ ‫مطالعه‬ ‫مورد‬ ‫واحد‬
‫باشد‬‫می‬.‫مط‬ ‫مورد‬ ‫خارج‬ ‫جهان‬ ‫با‬ ‫ارتباط‬ ‫در‬ ‫و‬ ‫کاربرد‬ ‫هنگام‬ ‫به‬ ‫را‬ ‫معنی‬‫العهه‬
‫دهد‬‫می‬ ‫قرار‬.‫منظهور‬ ‫و‬ ‫مفههوم‬ ‫توانهد‬‫می‬ ‫مختلهی‬ ‫موقعیتههای‬ ‫در‬ ‫جملهه‬ ‫هر‬
‫باشد‬ ‫داشته‬ ‫متفاوتی‬.ً‫ال‬‫مث‬:"‫هست‬ ‫باز‬ ‫اتام‬ ‫در‬"‫مختله‬ ‫شهرایط‬ ‫در‬ ‫؛‬‫ی‬(‫اگهر‬
‫باشد‬ ‫سرد‬ ‫هوا‬/‫اسهت‬ ‫سروصهدا‬ ‫اتهام‬ ‫بیهرون‬ ‫اگهر‬/‫گربه‬ ‫هه‬ ‫ب‬ ‫دنبهاب‬ ‫اگهر‬‫ه‬
‫گردید‬‫می‬/‫کنیهد‬ ‫صهحبت‬ ‫خصوصهی‬ ‫کسی‬ ‫با‬ ‫خواهید‬‫می‬ ‫اگر‬)... /‫منظه‬‫و‬ ‫ور‬
‫است‬ ‫متفاوت‬ ‫جمله‬ ‫قصد‬.
15
‫تحلیل‬‫گفتمان‬(Discourse analysis)‫یا‬‫شناسی‬ ‫گفتمان‬:‫تحلیل‬‫کهال‬‫م‬
‫گف‬ ،‫نوشهتاری‬ ‫زبهان‬ ‫که‬ ‫است‬ ‫مطالعاتی‬ ‫به‬ ‫اطالم‬ ‫برای‬ ‫کلی‬ ‫اصطالحی‬‫یها‬ ‫تهاری‬
‫قرا‬ ‫تحلیل‬ ‫و‬ ‫تجزیه‬ ‫مورد‬ ‫را‬ ‫شناختی‬‫نشانه‬ ‫پدیده‬ ‫گونه‬ ‫هر‬ ‫یا‬ ‫ای‬‫نشانه‬‫دهند‬‫می‬ ‫ر‬.
‫مثل‬ ‫بعد‬ ‫جمله‬ ‫مفهوم‬ ‫و‬ ‫تفسیر‬ ‫روی‬ ‫بر‬ ‫قبل‬ ‫جمله‬ ‫تاثیر‬ ‫مثاب‬ ‫برای‬‫ضمایر‬ ‫ارجاع‬
:"‫دارند‬ ‫اروپایی‬ ‫کشورهای‬ ‫مردم‬ ‫بیس‬ ‫در‬ ‫مشترکی‬ ‫دوستان‬ ‫محمود‬ ‫و‬ ‫احمد‬.‫آنها‬
..."‫چیست؟‬ ‫آنها‬ ‫از‬ ‫منظور‬"‫محمود‬ ‫و‬ ‫احمد‬"‫؛‬"‫مشترکشان‬ ‫دوستان‬"،"‫مهردم‬
‫اروپایی‬ ‫کشورهای‬"...
16
‫نرماب‬‫ساز‬‫یا‬‫سان‬ ‫ی‬‫ساز‬(Normalizer)
‫تشخیص‬‫دهنده‬‫جمالت‬(Sentence splitter)
‫تشخیص‬‫دهنده‬‫لغات‬(Tokenizer)
‫ریشه‬‫ساز‬‫واژه‬ ‫بس‬ ‫و‬ ‫یاب‬(Stemmer & Lemmatizer)
‫برچسب‬‫گذار‬‫کالم‬ ‫واژگانی‬ ‫اجزای‬(Part of Speech Tagger-POS)
‫پاسر‬(Parsing & Chunker)
‫برچسب‬‫گذار‬‫کالم‬ ‫معنایی‬(Semantic Role Labeling - SRL)
‫نامی‬ ‫های‬‫موجودیت‬ ‫تشخیص‬(Name Entity Recognition - NER)
‫واژگان‬ ‫ه‬ ‫شب‬(WordNet)
...
17
 Tokenization
 “Studying text mining is fun!” -> “studying” +
“text” + “mining” + “is” + “fun” + “!”
 Part-of-speech tagging
 “Studying text mining is fun!” ->
 Dependency parsing
 “Studying text mining is fun!” ->
CS@UVa18
19
 Modeling semi-structured data
 Information Retrieval (IR) from unstructured documents
 Locates relevant documents and Ranks documents
 Keyword based (Boolean matching)
 Similarity based
 Text mining
 Classify documents
 Cluster documents
 Find patterns or trends across documents
7/17/201720
 Many methods designed to analyze structured data
 If we can represent documents by a set of attributes we will
be able to use existing data mining methods
 How to represent a document?
 Vector based representation
 referred to as “bag of words” as it is invariant to permutations
 Statistical Approach / Topic Modeling (LSI, PLSI, LDA, NNMF,…)
 Neural Network (Deep Learning, Word2Vec, Paragraph2Vec,...)
 Use statistics to add a
numerical dimension to
unstructured text
7/17/201722
 One possible approach (Each entry describes a document):
 Attribute describe whether or not a term appears in the document
 Attributes represent the frequency in which a term appears
 in the document
 Ue relative frequency (% of document) or TF-IDF weighting
7/17/201723
7/17/201724
7/17/201725
26
7/17/201727
‫‌های‌داده‌کاوی‬‫ش‬‫رو‬
‌‫‌کننده‬‫ف‬‫توصی‬(‫‌ناظر‬‫ن‬‫بدو‬)
Descriptive
‌‫‌بندی‬‫ه‬‫خوش‬(Clustering)
‌‫کشف‌قوانین‌وابستگی‬(Association
Rule Mining)
‌‫کشف‌الگوهای‌ترتیبی‬(Sequential
Pattern Discovery)
‌‫‌کننده‬‫ی‬‫پیشبین‬(‫باناظ‬‫ر‬)
Predictive
‌‫رگرسیون‬(Regression)
‌‫‌بندی‬‫ه‬‫دست‬(Classification)
‌‫تشخیص‌و‌کشف‌تقلب‬(Deviation
Detection)
 Adding structures to the text corpus
CS@UVa28
 Identifying structures in the text corpus
CS@UVa29
 Identifying structures in the text corpus
CS@UVa30
 Exploring additional structure in the text corpus
CS@UVa31
32
 Sentiment analysis (opinion mining)
CS@UVa33
 Movies/Restaurant/hotel recommendation
CS@UVa34
 Document summarization
CS@UVa35
 Question Answering
CS@UVa36
 News recommendation
CS@UVa37
 World Wide trend of interest
CS@UVa38
 Text analytics in financial services
CS@UVa39
 Text analytics in healthcare and bioinformatics
CS@UVa40
‫متون‬ ‫بندی‬‫خوشه‬ ‫یا‬ ‫بندی‬ ‫دسته‬
‫اخبار‬ ‫بندی‬‫دسته‬ ‫یا‬ ‫خبر‬ ‫موضوع‬ ‫تعیین‬
‫الکترونیک‬ ‫پست‬ ‫در‬ ‫ها‬‫هرزنامه‬ ‫شناسایی‬
‫انتشار‬ ‫غیرقابل‬ ‫نظرات‬ ‫تعیین‬
‫زنی‬‫نمایه‬‫خودکار‬(‫موضوعی‬ ‫برچسب‬)
‫استخراج‬‫از‬ ‫اطالعات‬‫متن‬
‫خبرکاوی‬(‫اخبار‬ ‫تحلیل‬)
‫متن‬ ‫سازی‬‫خالصه‬
‫متن‬ ‫در‬ ‫آنها‬ ‫بین‬ ‫ارتباط‬ ‫و‬ ‫ها‬‫موجودیت‬ ‫و‬ ‫مفاهیم‬ ‫بازیابی‬
‫متون‬ ‫شباهت‬ ‫تعیین‬
‫نگارشی‬ ‫مشابهت‬ ‫کشف‬(‫ادبی‬ ‫سرقت‬)
،‫های‬‫نامه‬ ‫جستجوی‬‫و‬ ‫ها‬‫نامه‬‫بخش‬‫مرتبط‬ ‫های‬‫نامه‬‫آیین‬‫در‬‫مک‬ ‫گردش‬ ‫سیستم‬‫اتبات‬
‫متن‬ ‫نویسنده‬ ‫تشخیص‬/‫نویسنده‬ ‫جنسیت‬ ‫تشخیص‬
7/17/201741
 http://slideshare.net/
 https://www.wikipedia.org/
 Text Mining Course (University of Virginia)
 Natural Language Processing Research Group
(University of Sheffield)
7/17/201756
• Introduction to Information Retrieval. Christopher
D. Manning, Prabhakar Raghavan, and Hinrich
Schuetze, Cambridge University Press, 2007.
• Speech and Language Processing. Daniel
Jurafsky and James H. Martin, Pearson Education,
2000.
• Mining Text Data. Charu C. Aggarwal and
ChengXiang Zhai, Springer, 2012.
CS@UVa57
58 7/17/2017
Ad

Recommended

How to write proposal
How to write proposal
sajjad Jafary
روش تحقیق کیفی
روش تحقیق کیفی
Ali Reza Hashemi Nekoo
Voic maning
Voic maning
امراله سحرخیز
Fahimealiaskari metodology
Fahimealiaskari metodology
fahime aliaskari
مقدمه ای بر جمع آوری اطلاعات
مقدمه ای بر جمع آوری اطلاعات
iuvmtech
ابزارهای پردازش زبان طبیعی
ابزارهای پردازش زبان طبیعی
Ehsan Asgarian
+ Ontology 07 01 1398
+ Ontology 07 01 1398
Somayeh GhaviDel
Scopus 1397
Scopus 1397
Tabakhan54
داده کاوی علمی
داده کاوی علمی
sgilasi
Educational data mining
Educational data mining
MohammadHoseinSharif1
Cross Language Information Retrieval
Cross Language Information Retrieval
hadifar
روش های جمع آوری و تحلیل دادهمقدمه ای بر جمع آوری اطلاعات 2
روش های جمع آوری و تحلیل دادهمقدمه ای بر جمع آوری اطلاعات 2
msaghamanesh
روش های جمع آوری و تحلیل دادهمقدمه ای بر جمع آوری اطلاعات
روش های جمع آوری و تحلیل دادهمقدمه ای بر جمع آوری اطلاعات
msaghamanesh
Vajenameha
Vajenameha
masoomehfaridgolhin
+ Ontology 07 01 1398
+ Ontology 07 01 1398
Somayeh GhaviDel
داده‌کاوی و زبان برنامه‌نویسی R
داده‌کاوی و زبان برنامه‌نویسی R
جشنوارهٔ روز آزادی نرم‌افزار تهران
Aliaskari,fayazi resource sharing.markor.. .docx
Aliaskari,fayazi resource sharing.markor.. .docx
fahime aliaskari
متدلوژی تحقیق
متدلوژی تحقیق
Mahmood Neshati (PhD)
Use Case Specification
Use Case Specification
softwareacademy
Data Mining V.S. Busieness Inteligence
Data Mining V.S. Busieness Inteligence
Siavosh Moradabadi
تحلیل احساسات در شبکه های اجتماعی
تحلیل احساسات در شبکه های اجتماعی
Hamed Azizi
Data cleansing
Data cleansing
SiminZolfi
جنبه های واژه شناختی و اصطلاح شناختی ترجمه، ک..یا. آوربوخ، اُ.ام. کارپوا، فصو...
جنبه های واژه شناختی و اصطلاح شناختی ترجمه، ک..یا. آوربوخ، اُ.ام. کارپوا، فصو...
Bahman Bolouk
(ِData Structures-Java Object oriented Programming Languages)ساختارهای دیتا ...
(ِData Structures-Java Object oriented Programming Languages)ساختارهای دیتا ...
Muhibullah Aman

More Related Content

Similar to Text mining and it's applications (20)

+ Ontology 07 01 1398
+ Ontology 07 01 1398
Somayeh GhaviDel
Scopus 1397
Scopus 1397
Tabakhan54
داده کاوی علمی
داده کاوی علمی
sgilasi
Educational data mining
Educational data mining
MohammadHoseinSharif1
Cross Language Information Retrieval
Cross Language Information Retrieval
hadifar
روش های جمع آوری و تحلیل دادهمقدمه ای بر جمع آوری اطلاعات 2
روش های جمع آوری و تحلیل دادهمقدمه ای بر جمع آوری اطلاعات 2
msaghamanesh
روش های جمع آوری و تحلیل دادهمقدمه ای بر جمع آوری اطلاعات
روش های جمع آوری و تحلیل دادهمقدمه ای بر جمع آوری اطلاعات
msaghamanesh
Vajenameha
Vajenameha
masoomehfaridgolhin
+ Ontology 07 01 1398
+ Ontology 07 01 1398
Somayeh GhaviDel
داده‌کاوی و زبان برنامه‌نویسی R
داده‌کاوی و زبان برنامه‌نویسی R
جشنوارهٔ روز آزادی نرم‌افزار تهران
Aliaskari,fayazi resource sharing.markor.. .docx
Aliaskari,fayazi resource sharing.markor.. .docx
fahime aliaskari
متدلوژی تحقیق
متدلوژی تحقیق
Mahmood Neshati (PhD)
Use Case Specification
Use Case Specification
softwareacademy
Data Mining V.S. Busieness Inteligence
Data Mining V.S. Busieness Inteligence
Siavosh Moradabadi
تحلیل احساسات در شبکه های اجتماعی
تحلیل احساسات در شبکه های اجتماعی
Hamed Azizi
Data cleansing
Data cleansing
SiminZolfi
جنبه های واژه شناختی و اصطلاح شناختی ترجمه، ک..یا. آوربوخ، اُ.ام. کارپوا، فصو...
جنبه های واژه شناختی و اصطلاح شناختی ترجمه، ک..یا. آوربوخ، اُ.ام. کارپوا، فصو...
Bahman Bolouk
(ِData Structures-Java Object oriented Programming Languages)ساختارهای دیتا ...
(ِData Structures-Java Object oriented Programming Languages)ساختارهای دیتا ...
Muhibullah Aman
داده کاوی علمی
داده کاوی علمی
sgilasi
Cross Language Information Retrieval
Cross Language Information Retrieval
hadifar
روش های جمع آوری و تحلیل دادهمقدمه ای بر جمع آوری اطلاعات 2
روش های جمع آوری و تحلیل دادهمقدمه ای بر جمع آوری اطلاعات 2
msaghamanesh
روش های جمع آوری و تحلیل دادهمقدمه ای بر جمع آوری اطلاعات
روش های جمع آوری و تحلیل دادهمقدمه ای بر جمع آوری اطلاعات
msaghamanesh
Aliaskari,fayazi resource sharing.markor.. .docx
Aliaskari,fayazi resource sharing.markor.. .docx
fahime aliaskari
Data Mining V.S. Busieness Inteligence
Data Mining V.S. Busieness Inteligence
Siavosh Moradabadi
تحلیل احساسات در شبکه های اجتماعی
تحلیل احساسات در شبکه های اجتماعی
Hamed Azizi
جنبه های واژه شناختی و اصطلاح شناختی ترجمه، ک..یا. آوربوخ، اُ.ام. کارپوا، فصو...
جنبه های واژه شناختی و اصطلاح شناختی ترجمه، ک..یا. آوربوخ، اُ.ام. کارپوا، فصو...
Bahman Bolouk
(ِData Structures-Java Object oriented Programming Languages)ساختارهای دیتا ...
(ِData Structures-Java Object oriented Programming Languages)ساختارهای دیتا ...
Muhibullah Aman

Text mining and it's applications

  • 2.  Goal-oriented (effectiveness driven)  Any process that generates useful results that are non- obvious is called “mining”.  Keywords: “useful” + “non-obvious”  Data isn’t necessarily massive  Method-oriented (efficiency driven)  Any process that involves extracting information from massive data is called “mining”  Keywords: “massive” + “pattern”  Patterns aren’t necessarily useful 7/17/20172
  • 3. ‫منظور‬ ‫به‬ ‫متنی‬ ‫های‬‫داده‬ ‫اکتشافی‬ ‫تحلیل‬ ‫فرایند‬: ‫غیربدیهی‬ ‫و‬ ‫کیفیت‬ ‫با‬ ‫اطالعات‬ ‫استخراج‬ ‫دانیم‬‫نمی‬ ‫را‬ ‫آنها‬ ‫جواب‬ ‫که‬ ‫هایی‬‫پرسش‬ ‫به‬ ‫پاسخ‬ ‫کردن‬ ‫پیدا‬(‫م‬ ‫الگوهای‬‫خفی‬) 7/17/20173
  • 4. ‫توص‬ ‫زیر‬ ‫بصورت‬ ‫توان‬‫می‬ ‫را‬ ‫کاوی‬ ‫متن‬ ‫کامپیوتر‬ ‫علم‬ ‫دیدگاه‬ ‫از‬‫کرد‬ ‫یف‬:  Text Mining = Data Mining + Text Data 7/17/20174
  • 7. 7/17/20177 Finding Patterns Finding Knowledge/Information Novel Non-Novel Non-textual data General data-mining Exploratory data analysis Database queries Textual data Computational Linguistics Information retrieval Text Mining
  • 8. 7/17/20178 Text Mining Library & Info Science, Society Analysis Machine Learning Pattern Recognition Web Applications, Marketing (User Interests), Bioinformatics… Statistics Optimization Applications Information Retrieval (Search Engine, Information Extraction,…) SIGIR, WWW, WSDM, CIKM ICML, NIPS, UAI NLP ACL, EMNLP, COLING Data Mining KDD, ICDM, SDM Algorithms
  • 9. 7/17/20179 NLP •NLP techniques •Document pre-processing (cleaning and preparing the documents) •normalization, removal of extraneous information, error correction, tokenization, POS tagging, etc. IR •IR techniques •Document selection and filtering (Text2Matrix, Language Modeling) •reduce the search space, semantically-enhanced IR techniques, converting documents into the vector-space format ML •NLP / ML / statistical techniques •Document processing (information extraction) •NER, relation/event recognition, opinion mining etc.
  • 11. 11
  • 12. ‫تعریف‬: ‫ماشینی‬‫طب‬ ‫زبان‬ ‫یک‬ ‫توسط‬ ‫شده‬ ‫بیان‬ ‫مفاهیم‬ ‫برداشت‬ ‫و‬ ‫درک‬ ‫فرایند‬ ‫کردن‬‫انسانی‬ ‫یعی‬ ‫و‬ ‫گفتاری‬ ‫زبان‬ ‫پردازش‬ ‫منظور‬ ‫به‬ ‫رایانه‬ ‫از‬ ‫استفاده‬‫نوشتاری‬ ‫دامنه‬: ‫نوشتاری‬ ‫گفتار‬(‫تصویر‬ ‫و‬) ‫کاوی‬ ‫متن‬ ‫در‬ ‫استفاده‬ ‫از‬ ‫هدف‬: ‫متنی‬ ‫اطالعات‬ ‫پردازش‬ ‫بیشتر‬ ‫سرعت‬ ‫و‬ ‫ها‬‫داده‬ ‫حجم‬ ‫کاهش‬ ‫چشم‬ ‫بهبود‬‫سیستم‬ ‫خروجی‬ ‫نتایج‬ ‫صحت‬ ‫و‬ ‫دقت‬ ‫در‬ ‫گیر‬ 7/17/201712
  • 13. ‫آواشناسی‬(Phonetics):‫آوا‬ ‫سهطو‬ ‫ایهس‬ ‫در‬ ‫مطالعهه‬ ‫مورد‬ ‫واحد‬‫باشهد‬‫می‬. ‫ی‬ ‫تشه‬ ‫را‬ ‫انسهان‬ ‫گفتهار‬ ‫اصهوات‬ ‫مطالعه‬ ‫که‬ ‫است‬ ‫شناسی‬ ‫زبان‬ ‫از‬ ‫ای‬ ‫شاخه‬‫مهی‬ ‫ل‬ ‫دهد‬. ‫واج‬‫یی‬‫شناسی‬(Phonology):‫واج‬ ‫سههطو‬ ‫ایههس‬ ‫در‬ ‫مطالعههه‬ ‫مههورد‬ ‫واحههد‬ ‫باشد‬‫می‬.‫ت‬ ،‫واجهی‬ ‫کلمهه‬ ،‫هجا‬ ،‫پایه‬ ‫یا‬ ‫گام‬ ،‫گونه‬‫واج‬ ،‫واج‬ ،‫آوا‬ ‫مانند‬ ‫مسائلی‬ ،‫حوزه‬ ‫ایس‬ ‫در‬،‫یهه‬ ‫گیرند‬‫می‬ ‫قرار‬ ‫بررسی‬ ‫مورد‬ ‫شعر‬ ‫وزن‬ ‫و‬ ‫رکس‬ ،‫آهنگ‬. ‫شناسی‬ ‫ریخت‬‫تکواژ‬ ‫یا‬‫شناسی‬(Morphology: )‫در‬ ‫مطالعهه‬ ‫مورد‬ ‫واحد‬ ‫سطو‬ ‫ایس‬‫واژ‬ ‫ت‬(‫کلمه‬)‫باشد‬‫می‬.‫از‬ ‫بخشی‬‫زبان‬ ‫دستور‬‫ساخت‬ ‫کهه‬ ‫است‬‫واژه‬ ‫هههار‬ ‫دهد‬‫می‬ ‫قرار‬ ‫تحلیل‬ ‫مورد‬ ‫را‬. 13
  • 14. ‫نحو‬(Syntax)‫جمله‬ ‫یا‬‫شناسی‬:‫سطو‬ ‫ایس‬ ‫در‬ ‫مطالعه‬ ‫مورد‬ ‫واحد‬‫عبارت‬‫ی‬‫ا‬ ‫جمله‬‫باشد‬‫می‬.‫دانش‬ ‫به‬‫ی‬‫مطالعه‬‫به‬ ‫مربوط‬ ‫قواعد‬‫ی‬‫نحوه‬‫ک‬ ‫در‬ ‫و‬ ‫ترکیب‬‫هم‬ ‫نار‬ ‫شهود‬‫می‬ ‫اطهالم‬ ‫زبهان‬ ‫یک‬ ‫در‬ ‫جمالت‬ ‫درک‬ ‫و‬ ‫ایجاد‬ ‫منظور‬ ‫به‬ ‫ها‬‫واژه‬ ‫آمدن‬.‫بهه‬ ‫جمله‬ ‫مفهوم‬ ‫در‬ ‫آن‬ ‫تاثیر‬ ‫و‬ ‫جمله‬ ‫ساختار‬ ‫بررسی‬ ‫دیگر‬ ‫عبارت‬ ‫یا‬‫ی‬‫معن‬‫یی‬‫ی‬‫شناس‬(Semantics):‫ها‬‫ه‬‫معن‬ ‫هطو‬‫ه‬‫س‬ ‫هس‬‫ه‬‫ای‬ ‫در‬ ‫هه‬‫ه‬‫مطالع‬ ‫هورد‬‫ه‬‫م‬ ‫هد‬‫ه‬‫واح‬ ‫باشد‬‫می‬.‫است‬ ‫انسانی‬ ‫های‬‫زبان‬ ‫در‬ ‫معانی‬ ‫ی‬‫مطالعه‬ ‫و‬ ‫بررسی‬ ‫دانش‬.‫عبه‬ ‫بهه‬‫ارت‬ ‫جمله‬ ‫مفهوم‬ ‫بر‬ ‫کلمات‬ ‫تاثیر‬ ‫و‬ ‫جمله‬ ‫در‬ ‫کلمات‬ ‫معانی‬ ‫بررسی‬ ‫دیگر‬ 14
  • 15. ‫کاربردشناسی‬(Pragmatics: )‫قصد‬ ‫سطو‬ ‫ایس‬ ‫در‬ ‫مطالعه‬ ‫مورد‬ ‫واحد‬ ‫باشد‬‫می‬.‫مط‬ ‫مورد‬ ‫خارج‬ ‫جهان‬ ‫با‬ ‫ارتباط‬ ‫در‬ ‫و‬ ‫کاربرد‬ ‫هنگام‬ ‫به‬ ‫را‬ ‫معنی‬‫العهه‬ ‫دهد‬‫می‬ ‫قرار‬.‫منظهور‬ ‫و‬ ‫مفههوم‬ ‫توانهد‬‫می‬ ‫مختلهی‬ ‫موقعیتههای‬ ‫در‬ ‫جملهه‬ ‫هر‬ ‫باشد‬ ‫داشته‬ ‫متفاوتی‬.ً‫ال‬‫مث‬:"‫هست‬ ‫باز‬ ‫اتام‬ ‫در‬"‫مختله‬ ‫شهرایط‬ ‫در‬ ‫؛‬‫ی‬(‫اگهر‬ ‫باشد‬ ‫سرد‬ ‫هوا‬/‫اسهت‬ ‫سروصهدا‬ ‫اتهام‬ ‫بیهرون‬ ‫اگهر‬/‫گربه‬ ‫هه‬ ‫ب‬ ‫دنبهاب‬ ‫اگهر‬‫ه‬ ‫گردید‬‫می‬/‫کنیهد‬ ‫صهحبت‬ ‫خصوصهی‬ ‫کسی‬ ‫با‬ ‫خواهید‬‫می‬ ‫اگر‬)... /‫منظه‬‫و‬ ‫ور‬ ‫است‬ ‫متفاوت‬ ‫جمله‬ ‫قصد‬. 15
  • 16. ‫تحلیل‬‫گفتمان‬(Discourse analysis)‫یا‬‫شناسی‬ ‫گفتمان‬:‫تحلیل‬‫کهال‬‫م‬ ‫گف‬ ،‫نوشهتاری‬ ‫زبهان‬ ‫که‬ ‫است‬ ‫مطالعاتی‬ ‫به‬ ‫اطالم‬ ‫برای‬ ‫کلی‬ ‫اصطالحی‬‫یها‬ ‫تهاری‬ ‫قرا‬ ‫تحلیل‬ ‫و‬ ‫تجزیه‬ ‫مورد‬ ‫را‬ ‫شناختی‬‫نشانه‬ ‫پدیده‬ ‫گونه‬ ‫هر‬ ‫یا‬ ‫ای‬‫نشانه‬‫دهند‬‫می‬ ‫ر‬. ‫مثل‬ ‫بعد‬ ‫جمله‬ ‫مفهوم‬ ‫و‬ ‫تفسیر‬ ‫روی‬ ‫بر‬ ‫قبل‬ ‫جمله‬ ‫تاثیر‬ ‫مثاب‬ ‫برای‬‫ضمایر‬ ‫ارجاع‬ :"‫دارند‬ ‫اروپایی‬ ‫کشورهای‬ ‫مردم‬ ‫بیس‬ ‫در‬ ‫مشترکی‬ ‫دوستان‬ ‫محمود‬ ‫و‬ ‫احمد‬.‫آنها‬ ..."‫چیست؟‬ ‫آنها‬ ‫از‬ ‫منظور‬"‫محمود‬ ‫و‬ ‫احمد‬"‫؛‬"‫مشترکشان‬ ‫دوستان‬"،"‫مهردم‬ ‫اروپایی‬ ‫کشورهای‬"... 16
  • 17. ‫نرماب‬‫ساز‬‫یا‬‫سان‬ ‫ی‬‫ساز‬(Normalizer) ‫تشخیص‬‫دهنده‬‫جمالت‬(Sentence splitter) ‫تشخیص‬‫دهنده‬‫لغات‬(Tokenizer) ‫ریشه‬‫ساز‬‫واژه‬ ‫بس‬ ‫و‬ ‫یاب‬(Stemmer & Lemmatizer) ‫برچسب‬‫گذار‬‫کالم‬ ‫واژگانی‬ ‫اجزای‬(Part of Speech Tagger-POS) ‫پاسر‬(Parsing & Chunker) ‫برچسب‬‫گذار‬‫کالم‬ ‫معنایی‬(Semantic Role Labeling - SRL) ‫نامی‬ ‫های‬‫موجودیت‬ ‫تشخیص‬(Name Entity Recognition - NER) ‫واژگان‬ ‫ه‬ ‫شب‬(WordNet) ... 17
  • 18.  Tokenization  “Studying text mining is fun!” -> “studying” + “text” + “mining” + “is” + “fun” + “!”  Part-of-speech tagging  “Studying text mining is fun!” ->  Dependency parsing  “Studying text mining is fun!” -> CS@UVa18
  • 19. 19
  • 20.  Modeling semi-structured data  Information Retrieval (IR) from unstructured documents  Locates relevant documents and Ranks documents  Keyword based (Boolean matching)  Similarity based  Text mining  Classify documents  Cluster documents  Find patterns or trends across documents 7/17/201720
  • 21.  Many methods designed to analyze structured data  If we can represent documents by a set of attributes we will be able to use existing data mining methods  How to represent a document?  Vector based representation  referred to as “bag of words” as it is invariant to permutations  Statistical Approach / Topic Modeling (LSI, PLSI, LDA, NNMF,…)  Neural Network (Deep Learning, Word2Vec, Paragraph2Vec,...)  Use statistics to add a numerical dimension to unstructured text 7/17/201722
  • 22.  One possible approach (Each entry describes a document):  Attribute describe whether or not a term appears in the document  Attributes represent the frequency in which a term appears  in the document  Ue relative frequency (% of document) or TF-IDF weighting 7/17/201723
  • 25. 26
  • 27.  Adding structures to the text corpus CS@UVa28
  • 28.  Identifying structures in the text corpus CS@UVa29
  • 29.  Identifying structures in the text corpus CS@UVa30
  • 30.  Exploring additional structure in the text corpus CS@UVa31
  • 31. 32
  • 32.  Sentiment analysis (opinion mining) CS@UVa33
  • 37.  World Wide trend of interest CS@UVa38
  • 38.  Text analytics in financial services CS@UVa39
  • 39.  Text analytics in healthcare and bioinformatics CS@UVa40
  • 40. ‫متون‬ ‫بندی‬‫خوشه‬ ‫یا‬ ‫بندی‬ ‫دسته‬ ‫اخبار‬ ‫بندی‬‫دسته‬ ‫یا‬ ‫خبر‬ ‫موضوع‬ ‫تعیین‬ ‫الکترونیک‬ ‫پست‬ ‫در‬ ‫ها‬‫هرزنامه‬ ‫شناسایی‬ ‫انتشار‬ ‫غیرقابل‬ ‫نظرات‬ ‫تعیین‬ ‫زنی‬‫نمایه‬‫خودکار‬(‫موضوعی‬ ‫برچسب‬) ‫استخراج‬‫از‬ ‫اطالعات‬‫متن‬ ‫خبرکاوی‬(‫اخبار‬ ‫تحلیل‬) ‫متن‬ ‫سازی‬‫خالصه‬ ‫متن‬ ‫در‬ ‫آنها‬ ‫بین‬ ‫ارتباط‬ ‫و‬ ‫ها‬‫موجودیت‬ ‫و‬ ‫مفاهیم‬ ‫بازیابی‬ ‫متون‬ ‫شباهت‬ ‫تعیین‬ ‫نگارشی‬ ‫مشابهت‬ ‫کشف‬(‫ادبی‬ ‫سرقت‬) ،‫های‬‫نامه‬ ‫جستجوی‬‫و‬ ‫ها‬‫نامه‬‫بخش‬‫مرتبط‬ ‫های‬‫نامه‬‫آیین‬‫در‬‫مک‬ ‫گردش‬ ‫سیستم‬‫اتبات‬ ‫متن‬ ‫نویسنده‬ ‫تشخیص‬/‫نویسنده‬ ‫جنسیت‬ ‫تشخیص‬ 7/17/201741
  • 41.  http://slideshare.net/  https://www.wikipedia.org/  Text Mining Course (University of Virginia)  Natural Language Processing Research Group (University of Sheffield) 7/17/201756
  • 42. • Introduction to Information Retrieval. Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schuetze, Cambridge University Press, 2007. • Speech and Language Processing. Daniel Jurafsky and James H. Martin, Pearson Education, 2000. • Mining Text Data. Charu C. Aggarwal and ChengXiang Zhai, Springer, 2012. CS@UVa57