Lean Analytics for Startups and EnterprisesLean Analytics
油
The document discusses the importance of lean analytics for startups and enterprises, emphasizing the need for effective metrics to drive decision-making and improve business outcomes. It differentiates between vanity metrics and actionable metrics while underscoring the significance of understanding customer behavior and the stages of business development. The lean analytics framework provides a structured approach to measuring success and optimizing growth through targeted metrics.
The Tools of Government: A Guide to the New Governance 1st Editionkaubxurs1992
油
The Tools of Government: A Guide to the New Governance 1st Edition
The Tools of Government: A Guide to the New Governance 1st Edition
The Tools of Government: A Guide to the New Governance 1st Edition
Test Bank for International Human Resource Management, 7th Edition, Peter Dow...jludsladl4344
油
Test Bank for International Human Resource Management, 7th Edition, Peter Dowling
Test Bank for International Human Resource Management, 7th Edition, Peter Dowling
Test Bank for International Human Resource Management, 7th Edition, Peter Dowling
The Tools of Government: A Guide to the New Governance 1st Editionkaubxurs1992
油
The Tools of Government: A Guide to the New Governance 1st Edition
The Tools of Government: A Guide to the New Governance 1st Edition
The Tools of Government: A Guide to the New Governance 1st Edition
Test Bank for International Human Resource Management, 7th Edition, Peter Dow...jludsladl4344
油
Test Bank for International Human Resource Management, 7th Edition, Peter Dowling
Test Bank for International Human Resource Management, 7th Edition, Peter Dowling
Test Bank for International Human Resource Management, 7th Edition, Peter Dowling
(eBook PDF) A Foundation in the Principles of Management First Edition by Dan...tjeyfelom9945
油
(eBook PDF) A Foundation in the Principles of Management First Edition by Daniel Kipley
(eBook PDF) A Foundation in the Principles of Management First Edition by Daniel Kipley
(eBook PDF) A Foundation in the Principles of Management First Edition by Daniel Kipley
Dynamic Physical Education For Secondary School Students 7th Edition Darst Te...lpzrvlk486
油
Dynamic Physical Education For Secondary School Students 7th Edition Darst Test Bank
Dynamic Physical Education For Secondary School Students 7th Edition Darst Test Bank
Dynamic Physical Education For Secondary School Students 7th Edition Darst Test Bank
Solution Manual for Financial Reporting and Analysis, 8th Edition, Lawrence R...vulvdgop9164
油
Solution Manual for Financial Reporting and Analysis, 8th Edition, Lawrence Revsine, Daniel Collins, Bruce Johnson, Fred Mittelstaedt Leonard Soffer
Solution Manual for Financial Reporting and Analysis, 8th Edition, Lawrence Revsine, Daniel Collins, Bruce Johnson, Fred Mittelstaedt Leonard Soffer
Solution Manual for Financial Reporting and Analysis, 8th Edition, Lawrence Revsine, Daniel Collins, Bruce Johnson, Fred Mittelstaedt Leonard Soffer
Test Bank for Managing Organizational Behavior, 2nd Edition: Timothy Baldwincekxmus0952
油
Test Bank for Managing Organizational Behavior, 2nd Edition: Timothy Baldwin
Test Bank for Managing Organizational Behavior, 2nd Edition: Timothy Baldwin
Test Bank for Managing Organizational Behavior, 2nd Edition: Timothy Baldwin
Test Bank for Introduction to Communication Disorders, 6th Edition, Robert E....jludsladl4344
油
Test Bank for Introduction to Communication Disorders, 6th Edition, Robert E. Owens
Test Bank for Introduction to Communication Disorders, 6th Edition, Robert E. Owens
Test Bank for Introduction to Communication Disorders, 6th Edition, Robert E. Owens
Solution Manual for Accounting Information Systems, 10th Editionimjmoyraf9440
油
Solution Manual for Accounting Information Systems, 10th Edition
Solution Manual for Accounting Information Systems, 10th Edition
Solution Manual for Accounting Information Systems, 10th Edition
Principles of Managerial Finance 14th Edition Gitman Test Bankaxzhxew9885
油
Principles of Managerial Finance 14th Edition Gitman Test Bank
Principles of Managerial Finance 14th Edition Gitman Test Bank
Principles of Managerial Finance 14th Edition Gitman Test Bank
Financial and Managerial Accounting The Basis for Business Decisions 18th Edi...jawrzehm5338
油
Financial and Managerial Accounting The Basis for Business Decisions 18th Edition Williams Test Bank
Financial and Managerial Accounting The Basis for Business Decisions 18th Edition Williams Test Bank
Financial and Managerial Accounting The Basis for Business Decisions 18th Edition Williams Test Bank
Successful Project Management 7th Edition Gido Test Bankcezmbtdj268
油
Successful Project Management 7th Edition Gido Test Bank
Successful Project Management 7th Edition Gido Test Bank
Successful Project Management 7th Edition Gido Test Bank
Successful Project Management 7th Edition Gido Test Bankcezmbtdj268
油
Ad
Neticle bce om_preso_20121113
1. Neticle Technologies
Automatikus v辿lem辿nyelemz辿s
Szekeres P辿ter, vezet kutat坦
peter.szekeres@neticle.hu
tel.: +36 70 7016488
www.neticle.hu
Budapest, 2012.11.13. www.neticle.hu
2. A v辿lem辿nyelemz辿s vagy sentiment analysis
c辿lja olyan algoritmusok kialak鱈t叩sa, melyek
sz叩mszer撤s鱈tik k端l旦nb旦z sz旦vegek
v辿lem辿nypolarit叩s叩t valamilyen pozit鱈v-negat鱈v
sk叩l叩n.
Budapest, 2012.11.13. www.neticle.hu
4. Mire lehet haszn叩lni?
sszehasonl鱈t叩s versenyt叩rsakkal
Kamp叩nyok, esem辿nyek hat叩sainak vizsg叩lata
Automatikus 辿rtes鱈t辿sek (ersen negat鱈v tartalmak eset辿n)
F ellenz 辿s f t叩mogat坦 felhaszn叩l坦k azonos鱈t叩sa
F ellenz 辿s f t叩mogat坦 weboldalak
Ad-hoc elemz辿sek v辿grehajt叩sa
Budapest, 2012.11.13. www.neticle.hu
5. WebLib
Neticle
Magyar szereplk
MorphoLogic
OpinHu
Budapest, 2012.11.13. www.neticle.hu
7. Text mining
Data mining
NLP
Machine learning
Budapest, 2012.11.13. www.neticle.hu
8. Magyar nyelv撤 sz旦vegek
automatikus feldolgoz叩s叩nak
neh辿zs辿gei
Budapest, 2012.11.13. www.neticle.hu
9. 雨岳坦姻温乙看噛叩壊 sisak, reggel, folyamod
Tikk (2007) szerint egy fn辿vnek ak叩r 1400, mell辿kn辿vnek ak叩r 2700
alakja lehet
Budapest, 2012.11.13. www.neticle.hu
10. Hunglish kifejez辿sek
j炭zerrel, l叩jkol, szisztem, deployol
Budapest, 2012.11.13. www.neticle.hu
11. Szleng 辿s webes szleng
lol, lolz, omg, sz@r, f@ck u, mind1, h, zomg
Budapest, 2012.11.13. www.neticle.hu
12. Tagad坦szavakkal 辿s tilt坦szavakkal (p辿ld叩ul: sem,
nem, se, ne, se nem, sincs, nincs, sincsen,
nincsen),
Tagad叩s
Foszt坦k辿pzk (p辿ld叩ul: -atlan, -etlen, -mentes)
Budapest, 2012.11.13. www.neticle.hu
13. Beviteli eszk旦z miatti saj叩toss叩gok
Karakterk坦dol叩si neh辿zs辿gek
Budapest, 2012.11.13. www.neticle.hu
22. 意辿稼霞艶噛 Le鱈r叩s Sz旦vegb叩ny叩s Feladat
zati neh辿zs辿
feladat ge
C辿l entit叩s Amire a v辿lem辿ny N辿velem Neh辿z
vonatkozik, p辿ld叩ul: azonos鱈t叩s
iPhone
Aspektus, A c辿l entit叩s tulajdons叩ga Inform叩ci坦kinye Neh辿z
attrib炭tum vagy r辿szeleme, amire a r辿s
v辿lem辿ny vonatkozik.
V辿lem辿ny Maga a - t旦bbnyire V辿lem辿nykinyer K旦nny撤
szubjekt鱈v - v辿lem辿ny 辿s
Forr叩s Az a szem辿ly (felhaszn叩l坦) Inform叩ci坦kinye Neh辿z
aki megfogalmazta a r辿si 辿s
v辿lem辿nyt n辿velem
azonos鱈t叩si
feladat
Id A v辿lem辿ny Inform叩ci坦kinye Neh辿z
megjelen辿s辿nek/keletkez r辿si 辿s
辿s辿nek ideje n辿velem
azonos鱈t叩si
feladat
Budapest, 2012.11.13. www.neticle.hu
39. Ki Hogyan Nyelv Accuracy
SVM algoritmussal unigrammok
felhaszn叩l叩s叩val IMDB
weboldal filmkritik叩inak
Pang et al (2002) elemz辿se angol 82,90%
Szubjektivit叩s oszt叩lyoz叩ssal majd
Naiv Bayes m坦dszerrel
megval坦s鱈tott hierarchikus
oszt叩lyoz叩ssal IMDB weboldal
Pang et al (2004) filmkritik叩inak elemz辿se angol 86,40%
Hatzivassiloglu Sz坦t叩r alap炭 m坦dszerrel a
辿s sz旦vegekben l辿v mell辿knevek
McKeown orient叩ci坦ja alapj叩n becs端lt辿k
(Szaszk坦 et al, meg dokumentumok
2009 alapj叩n) orient叩ci坦j叩t angol 78%
Sz坦t叩r alap炭 m坦dszerrel
weboldalak sz旦veg辿nek
Neticle v辿lem辿nyelemz辿se magyar 80,48%
Budapest, 2012.11.13. www.neticle.hu
40. Ki Hogyan Nyelv Accuracy
C4.5 d旦nt辿si fa algoritmussal
kombin叩lt f坦rum v叩laszol叩si
gr叩fmegold叩ssal
Berend 辿s Farkas n辿pszavaz叩sr坦l alkotott
(2008) v辿lem辿nyek oszt叩lyoz叩sa magyar 71,76%
240 magyar nyelv撤 filmkritika pozit鱈v
negat鱈v oszt叩lyoz叩sa 炭n.
robosztus kock叩zat
minimaliz叩l叩s elven alapul坦
Szaszk坦 et al (2009) oszt叩lyoz叩ssal. magyar 76%
Ha minden mondatot, a
leggyakoribb, a semleges
Baseline pontoss叩g kateg坦ri叩ba sorolunk magyar 58,71%
Sz坦t叩r alap炭 m坦dszerrel weboldalak
Neticle sz旦veg辿nek v辿lem辿nyelemz辿se magyar 80,48%
Budapest, 2012.11.13. www.neticle.hu
42. rdekldknek aj叩nlott:
Tikk, D. [2007]: Sz旦vegb叩ny叩szat, Typotex Elektronikus Kiad坦 Kft,
Budapest
Liu, B. [2011]: Sentiment Analysis Tutorial. AAAI-2011 Conference, San
Francisco, USA. (let旦lthet:, utolj叩ra let旦ltve:
http://www.cs.uic.edu/~liub/FBS/Sentiment-Analysis-tutorial-AAAI-2011.pdf
, 2012. 叩prilis 19-辿n)
Mih叩ltz M叩rton [2010]: OpinHu: online sz旦vegek t旦bbnyelv撤
v辿lem辿nyelemz辿se, VII. Magyar Sz叩m鱈t坦g辿pes Nyelv辿szeti Konferencia
Berend, G., Farkas, R. [2008]: Opinion Mining in Hungarian based on
textual and graphical clues, in Proceedings of the 4th Intern. Symposium
on Data Mining and Intelligent Information Processing, Santander, 2008.
Budapest, 2012.11.13. www.neticle.hu
#9: 雨岳坦姻温乙看噛叩壊 kezel辿se: a strukturalista nyelvtan n辿zetet lev叩lt坦 Noam Chomsky 叩ltal bevezetett generat鱈v nyelvelm辿let 炭j megk旦zel鱈t辿st hozott a nyelvek kezel辿s辿be. A generat鱈v nyelvelm辿let jelents辿ge a nyelvek 辿s a sz旦vegk辿pz辿s matematikai megragad叩s叩ban algoritmiz叩l叩s叩ban - rejlik: Chomsky modellje alapj叩n egy nyelvnek v辿gtelen vari叩ci坦ja l辿tezhet az alap sz坦k辿szlet (jelk辿szlet) 辿s a sz坦- 辿s sz旦vegk辿pz辿si szab叩lyok alapj叩n. (Chomsky, 1965) A generat鱈v megk旦zel鱈t辿s k端l旦n旦sen igaz a magyar 辿s a t旦bbi agglutin叩l坦 nyelvre. A toldal辿kol坦 辿s szabad strukt炭r叩j炭 nyelvek automatikus feldolgoz叩s叩ra, mint p辿ld叩ul a magyar, a sz坦zs叩k modell a leggyakrabban alkalmazott m坦dszer. Ugyanakkor a sz旦vegek sz坦zs叩k modell alap炭 feldolgoz叩s叩hoz sz端ks辿ges, hogy az azonos jelent辿s撤nek tekintett szavak azonos alakra ker端ljenek, vagyis a gyakorlatban az ut坦ragokat 辿s bizonyos jeleket le kell v叩gni a sz坦v辿gekrl. A lev叩g叩sok algoritmiz叩l叩s叩n叩l k辿pezhetek szab叩lyok, azonban ezeknek figyelembe kell venni端k az 旦sszeolvad叩si, r辿szleges vagy 辿ppen teljes hasonul叩si nyelvtani szab叩lyokat, valamint az olyan sz坦t旦veket, melyek valamilyen ut坦ragra v辿gzdnek (p辿ld叩ul: sis ak , reg gel ). K端l旦n probl辿ma azon esetek kezel辿se, amikor a ragozott 辿s a ragn辿lk端li alak is 辿rtelmes sz坦t, p辿ld叩ul: folyam od . A probl辿m叩t j坦l mutatja, hogy egy ig辿nek az igei toldal辿kol叩s teljes reperto叩rj叩t felhaszn叩lva t旦bb mint 100 form叩ja lehet a magyar nyelvben: Igeid: 3 Igem坦d: 3 Szem辿ly: 3 Sz叩m: 2 Igenem: 2 Alanyi/T叩rgyas ragoz叩s: 2 sszesen : 3 x 3 x 3 x 2 x 2 x 2 = 216 [1] Tikk (2007) szerint egy fn辿vnek ak叩r 1400, mell辿kn辿vnek ak叩r 2700 alakja lehet! Hunglish kifejez辿sek: a webes sz旦vegekben, k端l旦n旦sen szakmai sz旦vegekben vagy 辿ppen olyan inform叩lis m辿diumokban, mint a k旦z旦ss辿gi oldalak, f坦rumok vagy blogok, igen elterjedt az angol nyelv撤 szavak haszn叩lata magyar mondatokban, p辿ld叩ul: trademark , outsourcing , trading , like , system, event, share A webes nyelvi uniformiz叩l坦d叩s 辿s mut叩l坦d叩s egy m叩sik jelens辿ge, mikor angol nyelv撤 szavakat magyaros鱈tanak a nyelvhaszn叩l坦k, azaz a kiejt辿s elve szerint 鱈rj叩k le, 辿s a magyar nyelvtan szab叩lyai szerint ragozz叩k az idegen eredet撤 szavakat, p辿ld叩ul: j炭zerrel , l叩jkol , szisztem, deployol Szleng 辿s web szleng: amikor webes sz旦vegeket elemz端nk, figyelembe kell venn端nk, hogy a web nyelvezete modern 辿s saj叩tos, 辿s 叩ltal叩nosak a szleng 辿s webes szleng kifejez辿sek, valamint az emotikonok haszn叩lata. K端l旦n旦sen igaz mindez 辿rzelmi megnyilv叩nul叩sokra: lol , lolz , omg , [email_address] , f@ck u, mind1, h, zomg Beviteli eszk旦z miatti saj叩toss叩gok: a hordozhat坦 eszk旦z旦krl (tipikusan okostelefonokr坦l) t旦rt辿n bevitelnek k旦sz旦nheten az inform叩lis k旦z旦ss辿gi oldalakon sokszor tal叩lkozhatunk eg辿szen saj叩tos szintaktikai 辿s szemantikai szab叩lyokat k旦vet mondatokkal 辿s f辿lmondatokkal: Nincsenek 辿kezetek. Nincsenek nagybet撤k Nincsenek 鱈r叩sjelek a sz旦vegben, vagy csak mondatv辿gi 鱈r叩sjelek haszn叩l a szerz. A szavak helyes鱈r叩sa laz叩n kezelt. Jellemzek az elg辿pel辿sek. Ha sz叩m鱈t坦g辿ppel akarjuk feldolgozni ezeket a kommenteket 辿s hozz叩sz坦l叩sokat, akkor az eml鱈tett jelens辿gek t旦meges elfordul叩s叩ra fel kell k辿sz鱈teni a rendszert. Karakterk坦dol叩si neh辿zs辿gek: kev辿sb辿 trivi叩lis, de magyar nyelv撤 webes sz旦vegek sz叩m鱈t坦g辿pes feldolgoz叩s叩n叩l tipikus probl辿ma a karakterk坦dol叩s megfelel kezel辿se: HTML oldalak let旦lt辿s辿n辿l illetve sz旦vegek adatb叩zisba vagy f叩jlba export叩l叩s叩n叩l figyelni kell, hogy a magyar 辿kezetes bet撤k (azon bel端l is elssorban az 辿s 撤 bet撤k) megjelen鱈t辿se megfelel-e: UTF-8 vagy Latin2 karakterk坦dol叩s aj叩nlott. Szint辿n HTML oldalak feldolgoz叩sakor lehet probl辿ma, ha az adott kiszolg叩l坦 az 辿kezetes 辿s egy辿b k端l旦nleges karaktereket a sz旦vegben HTML karakterk坦ddal (p辿ld叩ul: á -> 叩) jel旦li a forr叩sf叩jlban. Ekkor gondoskodni kell a dek坦dol叩sr坦l feldolgoz叩s eltt. Kontextus- 辿s szakter端leti f端ggs辿g: v辿lem辿nyek sz坦zs叩k modell alap炭 elemz辿s辿n辿l probl辿ma lehet, hogy egy adott sz坦 vagy kifejez辿s kontextusonk辿nt elt辿r jelent辿ssel b鱈rhat: egy kifejez辿s pozit鱈v egy adott kontextusban, m鱈g ellent辿tes ir叩ny炭 egy m叩sik kontextusban. Tagad叩sok sokf辿les辿ge : a magyar nyelvben a tagad叩s t旦bbf辿le m坦don lehets辿ges: Tagad坦szavakkal 辿s tilt坦szavakkal (p辿ld叩ul: sem, nem, se, ne, se nem, sincs, nincs, sincsen, nincsen ), melyek elhelyezkedhetnek k旦zvetlen端l a vagy ak叩r 1 poz鱈ci坦val a tagad叩s t叩rgya eltt illetve ut叩n. Foszt坦k辿pzk (p辿ld叩ul: -atlan, -etlen, -mentes) seg鱈ts辿g辿vel Egy v辿lem辿nyelemz rendszern辿l alapk旦vetelm辿ny, hogy a rendszernek kezelnie kell a k端l旦nb旦z tagad叩sokat (a polarit叩s neg叩l叩s叩t), elt辿r esetben drasztikusan romlik a v辿lem辿nyelemz辿s pontoss叩ga, mivel pontosan ellent辿tesen 辿rtelmezi az adott v辿lem辿nyt. [1] A val坦s叩gban valamivel kevesebb az 旦sszes lehets辿ges alak, mert p辿ld叩ul a szenved ig辿knek nincsen t叩rgyas ragoz叩sa.
#15: A sz坦t旦vez辿s illetve lemmatiz叩l叩s [1] k端l旦n旦sen fontos elfeldolgoz叩si l辿p辿s a sz旦veges adatok sz叩m鱈t坦g辿pes elemz辿se sor叩n, seg鱈ts辿g端kkel egys辿ges, kanonikus alakra hozhat坦ak a sz旦vegek szavai. Defin鱈ci坦 szerint : a sz坦t旦vez辿s egy olyan algoritmus, mely sor叩n a toldal辿kokkal ell叩tott sz坦 alapj叩n el叩ll鱈tjuk a sz坦t旦vet . (Fajszi (2010) 295. oldal) A toldal辿kok lev叩g叩s叩val n旦velhet a sz坦elfordul叩son vagy t旦bb szavas kifejez辿sek elfordul叩s叩n alapul坦 elemz辿sek illetve sz旦veges keres辿si feladatok pontoss叩ga. Ugyanakkor sz旦vegb叩ny叩szati elemz辿sek megval坦s鱈t叩s叩n叩l is figyelembeveend mind t叩rhely mind feldolgoz叩si teljes鱈tm辿ny szempontj叩b坦l, hiszen ha az elemzett sz旦vegeket vektort辿rmodellben [2] reprezent叩ljuk, akkor a vektort辿rmodell m辿ret辿t jelentsen cs旦kkenthetj端k, mivel a sz坦alakonk辿nti dimenzi坦 helyett a kanonikus alakhoz csak a vektort辿r egy dimenzi坦ja tartozik. (Tikk (2007) 41. oldal). Az ily m坦don t旦rt辿n redukci坦 jelentsen cs旦kkentheti egy elemz辿si alkalmaz叩s t叩rhely, mem坦ria 辿s sz叩m鱈t叩si kapacit叩s sz端ks辿glet辿t. Tikk (2007) szerint angol nyelvre 40-70%, m鱈g nyelvre ak叩r 90%-os m辿ret-megtakar鱈t叩st is jelenthet a sz坦t旦vez辿s. A tov叩bbiakban k端l旦nbs辿get tesz端nk sz坦t旦vez辿s 辿s lemmatiz叩l叩s k旦z旦tt: Sz坦t旦vez辿s : a toldal辿kok lev叩g叩sa ut叩n marad坦 sz坦 nem felt辿tlen端l 辿rtelmes sz坦alak a k旦thangok 辿s hangz坦m坦dosul叩sok miatt, p辿ld叩ul: ajtaja -> ajt. Lemmatiz叩l叩s: A k端l旦nb旦z sz坦alakok lemm叩kba val坦 csoportos鱈t叩sa. (Szirmai (2005) 177. o.) Ahol a lemma az azonos sz坦tbl sz叩rmaz坦 旦sszes (叩ltal叩ban azonos sz坦faj炭) sz坦alakot 叩tfog坦 kateg坦ria, pl. ugr叩l, ugrik, ugrott stb. A kutat叩s ig辿nyeihez igazodva k端l旦nb旦z sz坦faj炭 alakok is tartozhatnak egy lemm叩ba. (Szirmai (2005) 177. o.) A lemm叩kat reprezent叩l坦 sz坦alak 旦nmag叩ban 辿rtelmes, normaliz叩lt sz坦t叩ri sz坦alak: ajtaja -> ajt坦. (Tikk (2007)) A fenti 辿rtelemben a lemmatiz叩l叩s valamivel bonyolultabb feladat, jellemzen a sz坦t旦vez辿si toldal辿k-lev叩g叩si elj叩r叩sok kieg辿sz鱈t辿se ut坦feldolgoz叩si transzform叩ci坦kkal. A probl辿m叩t nehez鱈ti, hogy az ut坦feldolgoz叩si kieg辿sz鱈t l辿p辿sek gyakorlatilag egyediek a magyar nyelv szavai eset辿n. [3] Nem agglutin叩l坦 nyelvekn辿l a sz坦t旦vez辿s 辿s a lemmatiz叩l叩s feladat k旦z旦tt nincs jelents k端l旦nbs辿g. A bonyolults叩ga ellen辿re az 辿rtelmes alakot ad坦 lemmatiz叩l叩s aj叩nlott, mivel az 鱈gy kapott dokumentum reprezent叩ci坦k ugyan炭gy kanonikus sz坦alakok halmaz叩n alapulnak megval坦s鱈tva a sz坦k辿szlet redukci坦 minden elny辿t -, emellett pedig t旦k辿letesen alkalmasak a kapott 辿rtelmes sz坦alakok a tov叩bbi feldolgoz叩sra, p辿ld叩ul ak叩r k旦zvetlen端l megjelen鱈thetek a felhaszn叩l坦 sz叩m叩ra egy alkalmaz叩sban sz坦gyakoris叩gi diagram vagy sz坦felh form叩j叩ban. [4] [1] Angolul: stemming [2] A vektort辿rmodell l辿nyege, hogy egy dokumentumot szavakra bontunk, 辿s a benne elfordul坦 szavak 叩br叩zoljuk. Egy dokumentumhalmaz eset辿n ez azt jelenti, hogy a korpuszt egy jellemzen igen nagy m辿ret撤 k辿tdimenzi坦s ritkam叩trix-szal reprezent叩ljuk elfeldolgoz叩s ut叩n, ahol a m叩trix egy egyik dimenzi坦ja a dokumentumokat, a m叩sik pedig a korpuszban elfordul坦 szavakat jel旦li. A m叩trix mezi jel旦lik, hogy adott dokumentumban az adott sz坦 szerepel-e. (A bin叩ris 辿rt辿keken mellett m叩s 辿rt辿keket is szoktak sz叩molni a vektort辿rmodell mezibe, p辿ld叩ul gyakoris叩gokat, vagy norm叩lt gyakoris叩gokat, stb. (l叩sd m辿g: TF-IDF s炭lyoz叩s)). [3] P辿ld叩ul az angol nyelvre k辿sz鱈tett egyik els sz坦tv旦ez, a Lovins-t旦vez gyengepontja volt ez az ut坦lagos transzform叩ci坦. [4] A Smirnov (2008) 叩ltal hivatkozott Frakes (1984) ennek ellenkezje mellett 辿rvel, szerinte a sz坦t旦vez辿s/lemmatiz叩l叩s nyugodtan adjon 旦nmag叩ban nem 辿rtelmes t alakot, mivel bels feldolgoz叩sn叩l a kanonikus alak jellemzen csak egy dimenzi坦 vagy attrib炭tum. Frakes azonban figyelmen k鱈v端l hagyja az eredm辿nyek felhaszn叩l坦bar叩t megjelen鱈t辿s辿t, csak a bels elemz辿s hat辿konys叩g叩t tartja szem eltt.
#17: Algoritmikus, nyelvspecifikus transzform叩ci坦s szab叩lyok: nagy teljes鱈tm辿nyre k辿pes megold叩sok, melyek pontoss叩ga kiv辿telsz坦t叩rral ersen jav鱈that坦. Megval坦s鱈t叩saik komoly nyelv辿szeti ismereteket ig辿nyel. Ilyen, 叩t鱈r叩sos szab叩lyhalmazon alapul坦 m坦dszer p辿ld叩ul Porter algoritmusa (l叩sd: 5.3.4 fejezet) vagy az annak m撤k旦d辿si elv辿t t旦bb nyelvre alkalmaz坦, szint辿n Porter 叩ltal k辿sz鱈tett Snowball sz坦t旦vez辿si keretrendszer (l叩sd: 5.3.5 fejezet). Szavakat 辿s sz坦t旦veiket alkalmaz坦 sz坦t叩rak alkalmaz叩sa: j坦l kezeli a rendhagy坦 eseteket, azonban a sz坦t叩r fel辿p鱈t辿se meglehetsen idig辿nyes, 辿s folyamatos karbantart叩st ig辿nyel. Egy辿b, statisztikai m坦dszerek : jellemzen nyelvf端ggetlen megold叩sok. P辿ld叩ul: Szavakat 辿s toldal辿kokat tartalmaz坦 sz坦t叩rakban a szavak lehets辿ges felbont叩sainak elfordul叩sainak ellenrz辿se. Sz坦t叩rklaszterez辿s 炭tj叩n t旦rt辿n vizsg叩lat, annak meg叩llap鱈t叩s叩ra, hogy melyik szavakhoz tartozhat azonos t.
#19: HunStem A HunStem a BME MOKK [1] 叩ltal fejlesztett szab叩ly 辿s sz坦t叩r alap炭 sz坦t旦vez. A HunStem az 炭n. HunLex keretrendszerben megval坦s鱈tott morphdb.hu [2] adatb叩zison alapul 辿s a hozz叩 kapcsol坦d坦 nyelvi eszk旦z旦k (HunTools: HunStem, HunSpell, HunMorph) egyike. A HunStem a nyelvtani szab叩lyrendszere (morfol坦giai erforr叩sai) mellett haszn叩l a sz坦t旦vez辿shez egy tt叩rat 辿s egy affixumt叩rat (lexikai erforr叩s). A lexikai 辿s morfol坦giai erforr叩sokat a HunLex rendszer 叩ll鱈tja el a bels komplex nyelvtani rendszere 辿s nyelvet le鱈r坦 叩tfog坦 lexikona alapj叩n att坦l f端ggen, hogy p辿ld叩ul gyenge (ink叩bb alult旦vez辿sre hajlamos) vagy ers (ink叩bb t炭lt旦vez辿sre hajlamos) t旦vez辿si algoritmusra van sz端ks辿g az adott feladathoz. (A rendszer sz坦t叩ra t旦bb mint 120油000 magyar lemm叩t tartalmaz.) Tordai-f辿le magyar Snowball alap炭 sz坦t旦vez Tordai Anna megold叩sa az 炭gynevezett inflexi坦s toldal辿kokat v叩gja le, azaz csak a ragokat 辿s jeleket, a k辿pzket nem. Ez megfelel az 叩ltalam magyar nyelvre defini叩lt 2. sz坦t旦vez辿si szintnek. Tordai Anna 4 f辿le sz坦t旦vez algoritmust alak鱈tott ki magyar nyelvre (Tordai, 2005). Ezek jellemzi: LIGHT1 : csak a leggyakoribb 14 fn辿vi esetet kezeli. Ennek ellen辿re m叩r ez is jelent辿kenyen jav鱈thatja a keres辿si hat辿konys叩got . (Tikk, 2007) LIGHT2 : 21 esetet kezel, valamint a LIGHT1 叩ltal figyelmen k鱈v端l hagyott egykarakteres toldal辿kok k旦z端l az akkuzativusz (t叩rgyrag -t) 辿s szuperessz鱈vusz (-n) toldal辿kokat is lev叩gja. Mindk辿t sz坦t旦vez figyelembe veszi a sz坦tjel旦lt hossz叩t 辿s, hogy tartalmaz-e 辿rv辿nyes m叩ssalhangz坦mag叩nhangz坦 kombin叩ci坦t . (Tikk, 2007) MEDIUM : 12 gyakori fn辿vi esetet kezel, a birtokos 辿s birtokok, valamint a szem辿lyek sz叩m叩t is figyelembe v辿ve. Ezen k鱈v端l kezeli a leggyakoribb igealakokat (id, sz叩m, szem辿ly), a mell辿knevek fokoz叩s叩t, valamint a sz叩mnevekn辿l a t旦rtsz叩mn辿v 辿s sorsz叩mn辿v toldal辿kait. (Tikk, 2007) HEAVY : mind a 21 esetet 辿s az 旦sszes igealakot figyelembe veszi. (Tikk, 2007) Az egyes megold叩sok az alkalmazott szab叩lyokban 辿s l辿p辿sekben k端l旦nb旦znek. Homonim叩k eset辿n a r旦videbb alakot adja vissza a megold叩s, valamint a Heavy verzi坦 m叩r ersen t炭lt旦vez. Jellemz hib叩ja a t v辿g撤 szavak t炭lt旦vez辿se a t叩rgyrag 辿s a m炭lt id jele miatti lev叩g叩sok miatt. A k辿sz鱈tk a CLEF[3] 2005 magyar nyelv撤 korpusz叩n v辿gzett kutat叩saik sor叩n azt tapasztalt叩k, hogy a Light2 辿s a Heavy t旦vezk az inform叩ci坦-visszakeres辿s[4] sor叩n magasabb felid辿z辿st ny炭jtanak a sz坦t旦vez辿s n辿lk端li, illetve a m叩sik k辿t verzi坦n alapul坦 megold叩sn叩l. A Heavy verzi坦 a t炭lt旦vez辿si tulajdons叩ga miatt azonban rosszabb pontoss叩ggal b鱈rt, ez辿rt a Light2 verzi坦t tal叩lt叩k a legalkalmasabbnak a k辿sz鱈tk inform叩ci坦 visszakeres辿si feladatokhoz.[5] [1] Budapesti M撤szaki Egyetem M辿dia Oktat坦 辿s Kutat坦 K旦zpont [2] L叩sd: http://mokk.bme.hu/resources/morphdb-hu/ [3] Common Language Evaluation Forum [4] Information retrieval [5] A teljes 辿rt辿kel辿shez hozz叩 tartozik, hogy a korpusz szavainak 65%-a fn辿v, 12%-a mell辿kn辿v 辿s 10% ige, 辿s az egyes verzi坦k k旦z旦tti k端l旦nbs辿g pontosan a sz坦faji gyakori esetek kezel辿s辿n illetve nem kezel辿s辿n alapszik (Tikk, 2007), teh叩t egy kevesebb fnevet tartalmaz坦 korpuszon elt辿r eredm辿nyek sz端lethetnek a legjobb verzi坦 meg叩llap鱈t叩sa sor叩n.
#22: A v辿lem辿nyelemz辿s a term辿szetes nyelvfeldolgoz叩s (NLP)[1] r辿szter端lete, de rendk鱈v端l neh辿z feladat, t旦bb fontos szempontot, illetve neh辿zs辿get is kezelni kell egy v辿lem辿nyelemz辿si megold叩s tervez辿sekor. Liu (2011) kiemeli, hogy a v辿lem辿nyelemz辿si probl辿ma defini叩l叩sakor k辿t alapfeladat van: Meghat叩rozni, hogy mi sz叩m鱈t v辿lem辿nynek : hogyan k端l旦n鱈tj端k el az objekt鱈v negat鱈v t旦rt辿n辿seket a szubjekt鱈v v辿lem辿nynyilv叩n鱈t叩sokt坦l, illetve egy叩ltal叩n elk端l旦n鱈tj端k-e. Ha az elemz辿s mondat szinten t旦rt辿nik, akkor jellemzen egy fel端gyelt tan鱈t叩ssal tan鱈tott modell (naiv Bayes vagy SVM algoritmust haszn叩lva) seg鱈ts辿g辿vel elbb oszt叩lyozz叩k a mondatokat aszerint, hogy objekt鱈v vagy szubjekt鱈v mondatokr坦l van-e sz坦, 辿s csak a szubjekt鱈v mondatok polarit叩s叩t vizsg叩lj叩k. sszefoglalni a v辿lem辿nyeket : a v辿lem辿nyelemz辿s akkor j坦, ha siker端l rengeteg v辿lem辿ny gy撤jteni 辿s elemezni. Azonban a ki辿rt辿kel辿sn辿l, 辿s az eredm辿nyek 旦sszefoglal叩s叩n叩l fontos feladat a v辿lem辿nyek jellemzen kvantitat鱈v - t旦m旦r鱈t辿se, hogy az eredm辿nyek felhaszn叩lhat坦ak 辿s 辿rtelmezhetek legyenek. [1] Natural Language Processing
#23: Meghat叩rozni, hogy mi sz叩m鱈t v辿lem辿nynek sszefoglalni a v辿lem辿nyeket
#24: A v辿lem辿nyelemz辿s sor叩n a dokumentum feldarabol叩sa kisebb egys辿gekre elt辿r eredm辿nyekhez vezethet. A kisebb egys辿gekben k旦nnyebben meghat叩rozhat坦, hogy egy direkt v辿lem辿ny a kutat叩s t叩rgy叩ra vonatkozik-e vagy sem. Azonban az egyes sz旦vegegys辿gek k旦z旦tti n辿vm叩si 辿s egy辿b hivatkoz叩sok, illetve utal叩sok j坦val nehezebben dolgozhat坦ak fel. A kisebb egys辿gek aggreg叩lt 辿rt辿kei adj叩k a nagyobb egys辿gek polarit叩s叩t.
#25: V辿lem辿nyek azonos鱈t叩sa sor叩n azt is meg kell hat叩rozni a lehet legpontosabban, hogy mire vonatkozik a v辿lem辿ny. Liu (2011) kiemeli az attrib炭tum (aspektus) alap炭 v辿lem辿nyelemz辿st, melynek l辿nyege, hogy nem csak c辿lobjektum eg辿sz辿re vizsg叩ljuk az 辿rt辿kel辿seket, hanem annak bizonyos r辿szegys辿geire, jellemzire is. Az aspektusokra lehet egyszer撤 egyszint撤 hierarchikus lebont叩s, de sz端ks辿g eset辿n lehet eg辿szen komplex t旦bbszint撤 taxon坦mia vagy objektum modell is. Liu (2011) javaslata alapj叩n 旦k旦lszab叩lyk辿nt haszn叩lhat坦, hogy a v辿lem辿ny kifejez辿shez legk旦zelebb es fn辿vre vonatkozik a v辿lem辿ny. A v辿lem辿ny t叩rgy叩nak felismer辿s辿t nehez鱈ti, hogy az aspektusok (p辿ld叩ul 叩r) lehetnek explicite megeml鱈tve a sz旦vegben: t炭l magas az 叩ra, de lehetnek implicit m坦don is: t炭l dr叩ga. A c辿l entit叩s felismer辿sekor teh叩t nem mindegy, hogy a teljes objektumra vonatkozik a v辿lem辿ny vagy annak egy aspektus叩ra, valamint, hogy az egyes aspektus v辿lem辿nyeket hogyan aggreg叩ljuk a teljes objektumr坦l sz坦l坦 v辿lem辿nyek/polarit叩s meghat叩roz叩s叩hoz. Ide叩lis esetben egy a v辿lem辿nyelemz kezeli a c辿l entit叩s illetve az aspektusok szinonim叩it, az esetleges homonim叩kat, a n辿vm叩si hivatkoz叩sokat 辿s a gyakori el鱈r叩sokat.
#26: Liu (2011) r叩vil叩g鱈t arra is, hogy egy叩ltal叩n nem mindegy egy adott v辿lem辿ny ki辿rt辿kel辿s辿n辿l, hogy kinek a szempontj叩b坦l v辿gezz端k az elemz辿st. A Google r辿szv辿nyek 叩ra sz叩rnyal ma mondat p辿ld叩ul igen pozit鱈v annak, aki rendelkezik Google r辿szv辿nyekkel, de p辿ld叩ul kifejezetten rossz h鱈r annak, aki pont elz nap adta el a Google pap鱈rjait. A jelenlegi kutat叩sok vagy meghat叩roznak egy jellemz 叩ltal叩nos n辿zpontot, vagy figyelmen k鱈v端l hagyj叩k a probl辿m叩t.
#27: A n辿zpont mellett l辿nyeges kih鱈v叩s az egyes szakter端letek speci叩lis nyelvezet辿nek kezel辿se. A k辿t probl辿ma k旦z旦tt sokszor nem is lehet k端l旦nbs辿get tenni. Elfordulhatnak olyan kifejez辿sek a vizsg叩lt sz旦vegekben, melyek egy 叩ltal叩nos v辿lem辿nyelemz辿s sor叩n nem rendelkeznek polarit叩ssal, de a szakter端leti v辿lem辿nyelemz辿s sor叩n, a szaknyelv miatt m叩r ersen pozit鱈v vagy negat鱈v jelent辿s端k van. Ezek kiemelt kezel辿s辿re sz坦t叩ralap炭 m坦dszerekn辿l van sz端ks辿g, amikor az elre kialak鱈tott v辿lem辿ny sz坦t叩rat m坦dos鱈tani vagy bv鱈teni kell.
#28: Az egyes v辿lem辿nym辿r辿si algoritmusok bemutat叩s叩n叩l nem t辿rek ki k端l旦n a sz旦veges elfeldolgoz叩si l辿p辿sekre. Ezek 叩ltal叩nos bemutat叩sa jelen fejezet c辿lja. Egy sz旦veggy撤jtem辿nyre vonatkoz坦 elfeldolgoz叩s jellemzen a k旦vetkez l辿p辿seket illetve d旦nt辿seket foglalja mag叩ban: Dokumentum beolvas叩sa: a dokumentum beolvas叩sa mind egyedi fejleszt辿s撤, mind ismert sz旦vegb叩ny叩szati megold叩ssal fontos feladat, mivel a sz旦veges dokumentumok t旦bbf辿le forr叩sb坦l sz叩rmazhatnak: weboldal, adatb叩zis, xls f叩jl, txt f叩jl, doc f叩jl, xml f叩jl, JSON f叩jl, stb. Speci叩lis karakterk坦dol叩sok kezel辿se : HTML escape karakterek dek坦dol叩sa, magyar sz旦vegekn辿l UTF-8, Latin2 karakterk坦dol叩s haszn叩lata, sz端ks辿g eset辿n konverzi坦 vagy karaktercsere alkalmazhat坦. Dokumentum feldarabol叩s: bizonyos elemz辿sek illetve dokumentumok eset辿n sz端ks辿g lehet arra, hogy a beolvasott dokumentumot sz辿tv叩gjuk kisebb sz旦vegegys辿gekre. P辿ld叩ul k端l旦n kezelj端k egy cikk fejezeteit, vagy egy sz旦vegnek a mondatati k辿pezik az elemz辿s alapj叩t (l叩sd: 10. 叩bra). Stopszavak kisz撤r辿se : amennyiben olyan elemz辿st v辿gz端nk, amely b叩rmilyen szinten 辿p鱈t tokenek gyakoris叩g叩ra, akkor 辿rdemes az adott nyelv jelent辿s t旦bblettel nem b鱈r坦, de gyakori szavait kisz撤rni. Ilyen lehet p辿ld叩ul a n辿velk vagy a l辿tig辿k kisz撤r辿se magyar nyelv撤 sz旦vegek eset辿n. A sz端ks辿ges stopsz坦 lista 旦ssze叩ll鱈t叩sa feladatf端gg, de a weben hozz叩f辿rhetek az egyes nyelvek aj叩nlott stopsz坦list叩i, melyet sz端ks辿g m坦dos鱈thatunk az elemz辿si specifikumainknak megfelelen. T旦bbf辿le 鱈r叩sm坦d egy辿rtelm撤s鱈t辿se: ha egyes szavaknak t旦bbf辿le 鱈r叩sm坦dja haszn叩latos (ak叩r gyakori helyes鱈r叩si, elg辿pel辿se hib叩k miatt), akkor azokat k旦z旦s alakra kell hozni: p辿ld叩ul e-mail 辿s email szavak azonos alakra hoz叩sa. Szavak kisbet撤ss辿 alak鱈t叩sa A szavak sz坦t旦vez辿se a megfelel sz坦t旦vez辿si szinten (l叩sd: 5. fejezet) Dokumentum felbont叩sa karakter n-grammokra/szavakra/sz坦 n-grammokra : az egyes sz旦veges feldolgoz叩si algoritmusok m叩s-m叩s tokenfelbont叩sra 辿p端lnek. A dokumentum tokeniz叩l叩s叩n叩l 辿rdemes figyelembe venni, hogy a tokenek sz叩ma megegyezik a dokumentum-token bin叩ris vektort辿rm叩trix egyik dimenzi坦j叩val, amely 鱈gy rendk鱈v端l nagyra is megnhet, mellyel egy端tt n旦vekszik az elemz辿s sz叩m鱈t叩si kapacit叩sa modelltl f端ggen line叩ris, de ak叩r exponenci叩lis m辿rt辿kben. Vektort辿rmodell kialak鱈t叩sa: nem k旦telez elfeldolgoz叩si l辿p辿s, de a legt旦bb sz旦vegelemz辿si algoritmus ezzel a korpusz reprezent叩ci坦s m坦dszerrel dolgozik. A korpusz dokumentumait egy token 辿s a dokumentum dimenzi坦kkal rendelkez bin叩ris m叩trix-szal 叩br叩zoljuk, ahol a m叩trix 辿rt辿kei mutatj叩k, hogy adott token adott dokumentumban milyen gyakran szerepel.
#30: V辿lem辿nyoszt叩lyoz叩s legk旦zelebbi szomsz辿d m坦dszerrel A k legk旦zelebbi szomsz辿d m坦dszer[1] l辿nyege, hogy a kategoriz叩land坦 sz旦veghez legk旦zelebb es sz旦vegek kateg坦ri叩i alapj叩n hat叩rozzuk meg a c辿lsz旦veg kateg坦ri叩j叩t. (Tikk, 2007). A d旦nt辿sn辿l k sz叩m炭 legink叩bb hasonl坦 dokumentum c鱈mk辿je alapj叩n kell d旦nteni, a legt旦bbsz旦r szerepl c鱈mk辿t kapja a dokumentum (egyszer撤 t旦bbs辿gi szavaz叩s). A hasonl坦s叩g a vektort辿rmodell 辿rt辿kei k旦z旦tti k端l旦nb旦z t叩vols叩g metrik叩k (p辿ld叩ul koszinusz-t叩vols叩g) alapj叩n kalkul叩lhat坦. Tikk (2007) eml鱈ti, hogy k 辿rt辿k辿t jellemzen p叩ratlannak v叩lasztj叩k, 辿s a valid叩ci坦s adatok tapasztalatai alapj叩n hat叩rozz叩k meg. Egyes kutat叩sok 30-45, m鱈g m叩sok 3-5 k旦z旦tti k 辿rt辿ket javasolnak. A m坦dszer legfbb h叩tr叩nya a magas, val坦s idej撤 sz叩m鱈t叩si ig辿ny. V辿lem辿nym辿r辿s Szupportvektor-g辿ppel A Szupportvektor-g辿pek[2] igen hat辿kony oszt叩lyoz坦k. Az algoritmus olyan hipers鱈kokat 叩llap鱈t meg, melyek elv叩gj叩k a k端l旦nb旦z oszt叩lyok ment辿n a tan鱈t坦 adathalmaz pontjait (a vektort辿rmodell k端l旦nb旦z sz旦vegeit). A v叩g坦 hipers鱈kot 炭gy hat叩rozz叩k meg, hogy az a lehet legt叩volabb legyen a k旦zeli pontokt坦l, teh叩t a lehet legjobb v叩g叩s legyen a tan鱈t坦 adathalmazon lehets辿ges alkalmas v叩g叩sok k旦z端l. Tikk (2007) kiemeli, hogy az SVM algoritmusok erss辿ge abban rejlik, hogy a szepar叩l坦 hipers鱈kok a lehet legjobban oszt叩lyozz叩k a bizonytalan, teh叩t a szepar叩l坦 s鱈khoz k旦zel es pontokat a fenti optimaliz叩l叩s miatt. A m坦dszer az egyik leghat辿konyabb sz旦vegoszt叩lyoz叩si tanul坦 algoritmus. J坦l sk叩l叩zhat坦, nem 辿rz辿keny a rendk鱈v端l magas dimenzi坦sz叩mra (tokensz叩mra). Nincs sz端ks辿g valid叩ci坦ra, mert eleve az optim叩lis v叩g坦 s鱈kot alkalmazz, 辿s a tan鱈t坦adatok alapj叩n adhat坦 egy elm辿leti fels hibakorl叩t a k辿sbbi, ismeretlen adatokon t旦rt辿n oszt叩lyoz叩sra. (Tikk, 2007) [1] K-NN, k Nearest Neighbour [2] SVM, Support Vector Machine
#31: A megold叩s hasonl鱈t a naiv-Bayes algoritmusra. A l辿nyege, hogy az elemezend dokumentumgy撤jtem辿nyt megfelelen reprezent叩l坦 mint叩t (tan鱈t坦 sz旦vegeket) annot叩ljuk, azaz ell叩tjuk a pozit鱈v, negat鱈v 辿s semleges c鱈mk辿k valamelyik辿vel. A dokumentumokat felbontjuk tokenekre 辿s megvizsg叩ljuk, hogy az egyes tokenek milyen gyakran fordulnak pozit鱈v illetve negat鱈v c鱈mk辿j撤 dokumentumokban. Az elfordul叩s alapj叩n a tokenekhez pozit鱈v illetve negat鱈v pontsz叩mokat rendel端nk. A pontsz叩m lehet maga a gyakoris叩g vagy a gyakoris叩g alapj叩n kalkul叩lt 辿rt辿k, p辿ld叩ul a gyakoris叩g normaliz叩lt 辿rt辿ke vagy az egyes 辿rt辿kek besorol叩sa kateg坦ri叩kba. Az el叩llt token scoring rendszer (token-pontsz叩m sz坦t叩r) alapj叩n pozit鱈v 辿s negat鱈v pontsz叩m sz叩m鱈that坦 tov叩bbi dokumentumokra, 辿s eld旦nthet, hogy az adott sz旦veg pozit鱈v, negat鱈v vagy semleges polarit叩s炭. A modell t旦bb szempontb坦l is tov叩bb finom鱈that坦: Az elemz辿s egys辿ge: a dokumentum felbonthat坦 kisebb egys辿gekre, p辿ld叩ul fejezetekre, mondatokra, melyek polarit叩s叩nak valamilyen m坦d炭 aggreg叩l叩sa adja a dokumentum polarit叩s叩t. A polarit叩s kateg坦ri叩k bv鱈t辿se : a pozit鱈v-negat鱈v-semleges h叩rmas sk叩la helyett r辿szletesebb sk叩la is haszn叩lhat坦. Vagy pedig a pozit鱈v 辿s negat鱈v kateg坦ri叩kon bel端l 炭jabb szinteket (p辿ld叩ul: enyh辿n pozit鱈v, k旦zepesen pozit鱈v, ersen pozit鱈v) defini叩lhatunk, mely esetben k辿tszint撤 oszt叩lyoz叩st alkalmazhatunk. A pontsz叩m kalkul叩ci坦 alapja: a token egyszer撤 elfordul叩sa helyett figyelembe vehetj端k, hogy milyen m叩s tokenekkel fordul egy端tt el az adott token, vagy p辿ld叩ul h叩nyszor fordul el m叩s kateg坦ri叩kban, mennyire megk端l旦nb旦ztet erej撤 a token. A modell granularit叩s叩nak meghat叩roz叩ssa a modellez feladata, f端gg az elemz辿s c辿lj叩t坦l 辿s a rendelkez辿sre 叩ll坦 tan鱈t坦halmaz tulajdons叩gait坦l is.
#32: A d旦nt辿si f叩k sz旦vegoszt叩lyoz叩shoz, 辿s ez alapj叩n v辿lem辿nym辿r辿shez is haszn叩lhat坦ak. A d旦nt辿si f叩k vektort辿rmodell alapj叩n gener叩lhat坦ak. A fa csom坦pontjaiban a tokenek mint attrib炭tumok tal叩lhat坦ak, m鱈g az 叩gak felt辿teleket jelentenek az adott tokenre vonatkoz坦an. Ez a felt辿tel lehet egy egyszer撤 szerepel-e a token a dokumentumban felt辿tel, de lehet az elfordul叩sok sz叩m叩ra vonatkoz坦 k端sz旦b辿rt辿k vagy 辿rt辿kintervallum is. A d旦nt辿si fa leveleiben a pozit鱈v, negat鱈v illetve semleges c鱈mk辿k tal叩lhat坦ak. Tikk (2007) szerint a sz旦vegoszt叩lyoz叩shoz a tipikus d旦nt辿si fa tan鱈t坦algoritmusokat haszn叩lj叩k: ID3 C4.5 C5.0 CART CHAID A d旦nt辿si f叩k nagy elnye, hogy az ember sz叩m叩ra k旦nnyen 辿rtelmezhet eredm辿nyt ny炭jt, 辿s a fa egyszer撤en alak鱈that坦 ha-akkor szab叩lyhalmazz叩. A d旦nt辿si f叩k alkalmaz叩sa akkor aj叩nlott, amikor elrel叩that坦an viszonylag kev辿s, de nagy megk端l旦nb旦ztet erej撤 token seg鱈ts辿g辿vel megoldhat坦 az oszt叩lyba sorol叩s, ugyanakkor emiatt a tulajdons叩ga miatt gyakran elfordul t炭ltanul叩s, azaz a kapott modell a tan鱈t坦adatokra j坦 eredm辿nyt ad, de 炭j dokumentumok oszt叩lyoz叩sa eset辿n gyenge.
#33: pontonk辿nti k旦lcs旦n旦s inform叩ci坦 sz叩m鱈t叩s叩val PMI: azaz a 辿s b egy端ttelfordul叩si val坦sz鱈n撤s辿g辿t el kell osztani a elfordul叩si 辿s b elfordul叩si val坦sz鱈n撤s辿g辿vel
#34: Szemantikus v辿lem辿nyorient叩ci坦 meg叩llap鱈t叩sa PMI m坦dszerrel A m坦dszer akkor alkalmazhat坦, ha egyszerre t旦bb dokumentumot kell elemezni. Ekkor az algoritmus a v辿lem辿nysz坦t叩rakban nem szerepl, ismeretlen szavakhoz (tokenekhez) pontsz叩mot rendel a vel端k egy端tt gyakran elfordul坦 sz坦t叩ri tokenek pontsz叩mainak k旦z辿p辿rt辿ke alapj叩n. A sz坦t叩rakban nem szerepl tokenek 辿s a sz坦t叩ri tokenek k旦z旦tt a pontonk辿nti k旦lcs旦n旦s inform叩ci坦 sz叩m鱈t叩s叩val (PMI)[1] meghat叩rozhat坦, hogy mely sz坦t叩ri elemekkel fordulnak gyakran el egy dokumentumban az ismeretlen tokenek. A gyakran kapcsol坦d坦 tokenek pontsz叩mainak PMI 辿rt辿k alap炭 s炭lyoz叩s叩val pedig becs端lhet az ismeretlen alak pontsz叩ma. Ezzel a m坦dszerrel ak叩r egy teljesen adapt鱈v megold叩s is 辿p鱈thet, amennyiben az 炭j tokeneket 辿s a becs端lt pontsz叩mokat a rendszer ezut叩n elmenti a sz坦t叩r叩ba. A PMI 辿rt辿k a vizsg叩lt dokumentumhalmaz tokenelfordul叩sai alapj叩n sz叩m鱈that坦 a k旦vetkez m坦don: , azaz a 辿s b egy端ttelfordul叩si val坦sz鱈n撤s辿g辿t el kell osztani a elfordul叩si 辿s b elfordul叩si val坦sz鱈n撤s辿g辿vel. Szemantikus v辿lem辿nyorient叩ci坦 meg叩llap鱈t叩sa szinonima sz坦t叩rral Az ismeretlen tokenek polarit叩sa m叩s m坦don is becs端lhet. Egyes m坦dszerek kieg辿sz鱈t szinonimasz坦t叩rokat alkalmaznak a sz坦token alap炭 pontsz叩m sz坦t叩raik mell辿. gy a pontsz叩m sz坦t叩rban nem szerepl szavak pontsz叩ma becs端lhet azon szinonim叩inak pontsz叩mai alapj叩n, melyek szerepelnek a sz坦t叩rban. [1] Pointwise Mutual Information