متن کاوی (پردازش زبان طبیعی، بازیابی اطلاعات، یادگیری ماشین) + کاربردها
Text Mining (Natural Language Processing, Information Retrieval, Machine Learning) + Applications of text mining
Voic maningامراله سحرخیزسلام خدمت دوستان گلم یه نظر راجب این پاورپوینت بدین نظر شما برای من خیلی خیلی مهم هست و باعث میشه نقاط ضعف خودمو بدونم مرسی از شما دوستان عزیز
داده کاوی علمیsgilasi تحلیل استنادی
تحلیل خوانندگان از موسسات علمی الزویر و کلاریویت آنالیتیکس
تحلیل کتاب شناسی و معرفی نرم افزارهای این حوزه
تحلیل الترمتریکس و بررسی نرم افزارهای الترمتریک
تحلیل اسناد
دادهکاوی و زبان برنامهنویسی Rجشنوارهٔ روز آزادی نرمافزار تهران سرفصلها:
نگاهی اجمالی به ضرورت طرح مبحث دادهکاوی و تاریخچه تکامل آن
کاربردهای دادهکاوی و بررسی مثالهای جهان واقعی
بررسی فرایند دادهکاوی
بررسی مدل CRISP-DM
بررسی انواع دادههای قابل کاوش
معرفی انواع الگوهای قابل کشف
انتخاب روش دادهکاوی مناسب براساس مسئله
نگاهی اجمالی به بحث پیشپردازش دادهها
نگاهی به الگوریتمهای دادهکاوی
فناوریهای قابل استفاده در دادهکاوی
بررسی زبان برنامهنویسی R، و استفاده از آن در دادهکاوی در گامهای مختلف دادهکاوی
Aliaskari,fayazi resource sharing.markor.. .docxfahime aliaskariمعرفی انواع استاندارد فراداده ای مارک
که به معرفی انواع مارک پرداخته و تاریخچه ی شکل گیری مارک به صورت کامل توضیح داده شده
متدلوژی تحقیقMahmood Neshati (PhD)در این ارائه که برای دانشجویان کارشناسی ارشد دانشگاه بهشتی انجام شده، متدلوژی تحقیق و اجزای آن بیان شده است.
روش تحقیق
مقالات معتبر
پروپوزال
(ِData Structures-Java Object oriented Programming Languages)ساختارهای دیتا ...Muhibullah Amanمعلومات در حافظه به اشکال مختلف ذخیره و قابل دسترس می باشند که برای برنامه نویسان لازم است تا با روش های مختلف ذخیره معلومات در میموری و به آن دسترسی پیدا کنند.
داده کاوی علمیsgilasi تحلیل استنادی
تحلیل خوانندگان از موسسات علمی الزویر و کلاریویت آنالیتیکس
تحلیل کتاب شناسی و معرفی نرم افزارهای این حوزه
تحلیل الترمتریکس و بررسی نرم افزارهای الترمتریک
تحلیل اسناد
دادهکاوی و زبان برنامهنویسی Rجشنوارهٔ روز آزادی نرمافزار تهران سرفصلها:
نگاهی اجمالی به ضرورت طرح مبحث دادهکاوی و تاریخچه تکامل آن
کاربردهای دادهکاوی و بررسی مثالهای جهان واقعی
بررسی فرایند دادهکاوی
بررسی مدل CRISP-DM
بررسی انواع دادههای قابل کاوش
معرفی انواع الگوهای قابل کشف
انتخاب روش دادهکاوی مناسب براساس مسئله
نگاهی اجمالی به بحث پیشپردازش دادهها
نگاهی به الگوریتمهای دادهکاوی
فناوریهای قابل استفاده در دادهکاوی
بررسی زبان برنامهنویسی R، و استفاده از آن در دادهکاوی در گامهای مختلف دادهکاوی
Aliaskari,fayazi resource sharing.markor.. .docxfahime aliaskariمعرفی انواع استاندارد فراداده ای مارک
که به معرفی انواع مارک پرداخته و تاریخچه ی شکل گیری مارک به صورت کامل توضیح داده شده
متدلوژی تحقیقMahmood Neshati (PhD)در این ارائه که برای دانشجویان کارشناسی ارشد دانشگاه بهشتی انجام شده، متدلوژی تحقیق و اجزای آن بیان شده است.
روش تحقیق
مقالات معتبر
پروپوزال
(ِData Structures-Java Object oriented Programming Languages)ساختارهای دیتا ...Muhibullah Amanمعلومات در حافظه به اشکال مختلف ذخیره و قابل دسترس می باشند که برای برنامه نویسان لازم است تا با روش های مختلف ذخیره معلومات در میموری و به آن دسترسی پیدا کنند.
2. Goal-oriented (effectiveness driven)
Any process that generates useful results that are non-
obvious is called “mining”.
Keywords: “useful” + “non-obvious”
Data isn’t necessarily massive
Method-oriented (efficiency driven)
Any process that involves extracting information from
massive data is called “mining”
Keywords: “massive” + “pattern”
Patterns aren’t necessarily useful
7/17/20172
8. 7/17/20178
Text Mining
Library & Info Science,
Society Analysis
Machine Learning
Pattern Recognition
Web Applications,
Marketing (User Interests),
Bioinformatics…
Statistics
Optimization
Applications
Information Retrieval
(Search Engine,
Information Extraction,…)
SIGIR, WWW, WSDM, CIKM
ICML, NIPS, UAI
NLP
ACL, EMNLP, COLING
Data Mining
KDD, ICDM, SDM
Algorithms
9. 7/17/20179
NLP
•NLP techniques
•Document pre-processing (cleaning and preparing the documents)
•normalization, removal of extraneous information, error correction,
tokenization, POS tagging, etc.
IR
•IR techniques
•Document selection and filtering (Text2Matrix, Language Modeling)
•reduce the search space, semantically-enhanced IR techniques,
converting documents into the vector-space format
ML
•NLP / ML / statistical techniques
•Document processing (information extraction)
•NER, relation/event recognition, opinion mining etc.
20. Modeling semi-structured data
Information Retrieval (IR) from unstructured documents
Locates relevant documents and Ranks documents
Keyword based (Boolean matching)
Similarity based
Text mining
Classify documents
Cluster documents
Find patterns or trends across documents
7/17/201720
21. Many methods designed to analyze structured data
If we can represent documents by a set of attributes we will
be able to use existing data mining methods
How to represent a document?
Vector based representation
referred to as “bag of words” as it is invariant to permutations
Statistical Approach / Topic Modeling (LSI, PLSI, LDA, NNMF,…)
Neural Network (Deep Learning, Word2Vec, Paragraph2Vec,...)
Use statistics to add a
numerical dimension to
unstructured text
7/17/201722
22. One possible approach (Each entry describes a document):
Attribute describe whether or not a term appears in the document
Attributes represent the frequency in which a term appears
in the document
Ue relative frequency (% of document) or TF-IDF weighting
7/17/201723
42. • Introduction to Information Retrieval. Christopher
D. Manning, Prabhakar Raghavan, and Hinrich
Schuetze, Cambridge University Press, 2007.
• Speech and Language Processing. Daniel
Jurafsky and James H. Martin, Pearson Education,
2000.
• Mining Text Data. Charu C. Aggarwal and
ChengXiang Zhai, Springer, 2012.
CS@UVa57