Neticle bce om_preso_20121113

Download as ppt, pdf

0 likes926 views

Szekeres P茅ter

Neticle presentation on opinion-mining at Corvinus University of Budapest on November 13th, 2012.

Education

Neticle Technologies

Automatikus v茅lem茅nyelemz茅s

Szekeres P茅ter, vezet艖 kutat贸
peter.szekeres@neticle.hu
tel.: +36 70 7016488
www.neticle.hu

Budapest, 2012.11.13. www.neticle.hu

A v茅lem茅nyelemz茅s vagy sentiment analysis
c茅lja olyan algoritmusok kialak铆t谩sa, melyek
sz谩mszer疟s铆tik k眉l枚nb枚z艖 sz枚vegek
v茅lem茅nypolarit谩s谩t valamilyen pozit铆v-negat铆v
sk谩l谩n.

Budapest, 2012.11.13. www.neticle.hu

A v茅lem茅nyelemz茅s sz谩m铆t谩studom谩nyb贸l
menedzsment eszk枚zz茅 n艖tte ki mag谩t.
(Liu, 2011)

Budapest, 2012.11.13. www.neticle.hu

Mire lehet haszn谩lni?

脰sszehasonl铆t谩s versenyt谩rsakkal
Kamp谩nyok, esem茅nyek hat谩sainak vizsg谩lata
Automatikus 茅rtes铆t茅sek (er艖sen negat铆v tartalmak eset茅n)
F艖 ellenz艖茅s f艖 t谩mogat贸 felhaszn谩l贸k azonos铆t谩sa
F艖 ellenz艖茅s f艖 t谩mogat贸 weboldalak
Ad-hoc elemz茅sek v茅grehajt谩sa

Budapest, 2012.11.13. www.neticle.hu

WebLib
Neticle

Magyar szerepl艖k

MorphoLogic

OpinHu

Budapest, 2012.11.13. www.neticle.hu

Radian6

Budapest, 2012.11.13. www.neticle.hu

Text mining

Data mining

NLP
Machine learning

Budapest, 2012.11.13. www.neticle.hu

Magyar nyelv疟 sz枚vegek
automatikus feldolgoz谩s谩nak
neh茅zs茅gei
Budapest, 2012.11.13. www.neticle.hu

鲍迟贸谤补驳辞锄谩蝉 sisak, reggel, folyamod

Tikk (2007) szerint egy f艖n茅vnek ak谩r 1400, mell茅kn茅vnek ak谩r 2700
alakja lehet

Budapest, 2012.11.13. www.neticle.hu

Hunglish kifejez茅sek

j煤zerrel, l谩jkol, szisztem, deployol

Budapest, 2012.11.13. www.neticle.hu

Szleng 茅s webes szleng

lol, lolz, omg, sz@r, f@ck u, mind1, h, zomg

Budapest, 2012.11.13. www.neticle.hu

Tagad贸szavakkal 茅s tilt贸szavakkal (p茅ld谩ul: sem,
nem, se, ne, se nem, sincs, nincs, sincsen,
nincsen),

Tagad谩s
Foszt贸k茅pz艖k (p茅ld谩ul: -atlan, -etlen, -mentes)

Budapest, 2012.11.13. www.neticle.hu

Beviteli eszk枚z miatti saj谩toss谩gok

Karakterk贸dol谩si neh茅zs茅gek

Budapest, 2012.11.13. www.neticle.hu

Sz贸t枚vez茅s vs. lemmatiz谩l谩s
Budapest, 2012.11.13. www.neticle.hu

Szint Lev谩gand贸 P茅lda

Nincs -
0.
lev谩g谩s
1. Ragok T枚bbes sz谩m els艖 szem茅ly ragja: Fizet眉nk -> Fizet
Ragok 茅s T枚bbes sz谩m els艖 szem茅ly ragja: Fizet眉nk -> Fizet
2. jelek T枚bbes sz谩m els艖 szem茅ly ragja + m煤lt id艖 jele:
Fizett眉nk -> Fizet
Ragok, jelek T枚bbes sz谩m els艖 szem茅ly ragja: Fizet眉nk -> Fizet
茅s k茅pz艖k T枚bbes sz谩m els艖 szem茅ly ragja + m煤lt id艖 jele:
3.
Fizett眉nk -> Fizet
Igen茅vi k茅pz艖: Fizetend艖 -> Fizet
Ragok, T枚bbes sz谩m els艖 szem茅ly ragja: Fizet眉nk -> Fizet
jelek, T枚bbes sz谩m els艖 szem茅ly ragja + m煤lt id艖 jele:
4. k茅pz艖k 茅s Fizett眉nk-> Fizet
igek枚t艖k Igen茅vi k茅pz艖: Fizetend艖 -> Fizet
Igek枚t艖: Megfizet -> Fizet

Budapest, 2012.11.13. www.neticle.hu

Algoritmikus, nyelvspecifikus transzform谩ci贸s szab谩lyok

Sz贸t枚vez茅si m贸dszerek

Szavakat 茅s sz贸t枚veiket alkalmaz贸 sz贸t谩rak alkalmaz谩sa

Budapest, 2012.11.13. www.neticle.hu

Sz贸t谩r alap煤 sz贸t枚vez茅s Szab谩ly alap煤 sz贸t枚vez茅s

Lass煤 Gyors
Teljes铆tm茅ny

Elm茅letileg 100%-os Kiv茅telsz贸t谩r bevezet茅s茅vel
Pontoss谩g pontoss谩got is el茅rhet meglehet艖sen pontos

Csak azokra sz贸alakokra 脷j szavak eset茅n el茅g csak a
m疟k枚dik, amelyek kiv茅telsz贸t谩rakat b艖v铆teni,
Sk谩l谩zhat贸s谩g
szerepelnek a azt is csak sz眉ks茅g eset茅n
sz贸t谩rakban.
Kiv茅teles, Kiv茅telek, rendhagy贸 Kiv茅telek neh茅zkes
rendhagy贸 esetek hat茅kony kezel茅se
esetek kezel茅se Kiv茅tel sz贸t谩rak
kezel茅se bevezet茅s茅vel t枚rt茅nik
Nyelvf眉ggetlen megold谩s Nyelvf眉gg艖 megold谩s, jelent艖s
Nyelvf眉gg艖s茅g nyelvspecifikus
ismereteket ig茅nyel

B艖v铆thet艖s茅g, Egyszer疟 b艖v铆thet艖s茅g Neh茅zkes b艖v铆thet艖s茅g
fejleszthet艖s
茅g

F谩rads谩gos sz贸t谩r茅p铆t茅s Bonyolult szab谩lyrendszer
Megval贸s铆t谩s
Folyamatos karbantart谩s 茅p铆t茅s

Budapest, 2012.11.13. www.neticle.hu

HunStem
P茅ld谩k
magyar nyelv疟
Tordai Anna sz贸t枚vez茅sre

Neticle sz贸t枚vez艖je

Budapest, 2012.11.13. www.neticle.hu

Raglev谩g贸 pontoss谩g谩nak alakul谩sa

100%

90%

80%

70%

60%

50% Raglev谩g贸
pontoss谩ga
40% 谩tlagosan: 89,67%
30%

20%

10%

0%
1 1203 2405 3607 4809 6011 7213 8415 9617 10819 12021 13223 14425 15627
Sz贸sz谩m

Budapest, 2012.11.13. www.neticle.hu

痴茅濒别尘茅苍测别濒别尘锄茅蝉颈 kih铆v谩sok

Budapest, 2012.11.13. www.neticle.hu

罢茅苍测别锄艖 Le铆r谩s Sz枚vegb谩ny谩s Feladat
zati neh茅zs茅
feladat ge

C茅l entit谩s Amire a v茅lem茅ny N茅velem Neh茅z
vonatkozik, p茅ld谩ul: azonos铆t谩s
iPhone
Aspektus, A c茅l entit谩s tulajdons谩ga Inform谩ci贸kinye Neh茅z
attrib煤tum vagy r茅szeleme, amire a r茅s
v茅lem茅ny vonatkozik.
V茅lem茅ny Maga a - t枚bbnyire V茅lem茅nykinyer K枚nny疟
szubjekt铆v - v茅lem茅ny 茅s

Forr谩s Az a szem茅ly (felhaszn谩l贸) Inform谩ci贸kinye Neh茅z
aki megfogalmazta a r茅si 茅s
v茅lem茅nyt n茅velem
azonos铆t谩si
feladat

Id艖 A v茅lem茅ny Inform谩ci贸kinye Neh茅z
megjelen茅s茅nek/keletkez r茅si 茅s
茅s茅nek ideje n茅velem
azonos铆t谩si
feladat

Budapest, 2012.11.13. www.neticle.hu

A megfelel艖 sz枚vegegys茅g meghat谩roz谩sa

Budapest, 2012.11.13. www.neticle.hu

A c茅l entit谩s azonos铆t谩sa

Budapest, 2012.11.13. www.neticle.hu

狈茅锄艖辫辞苍迟辞办

鈥濭oogle r茅szv茅nyek 谩ra sz谩rnyal ma鈥�

Budapest, 2012.11.13. www.neticle.hu

Szakter眉leti sz贸t谩rspecializ谩ci贸

Budapest, 2012.11.13. www.neticle.hu

Dokumentum beolvas谩sa
Speci谩lis karakterk贸dol谩sok
kezel茅se
Dokumentum feldarabol谩s Tipikus
Stopszavak kisz疟r茅se el艖feldolgoz谩si
T枚bbf茅le 铆r谩sm贸d
egy茅rtelm疟s铆t茅se folyamat
Szavak kisbet疟ss茅 alak铆t谩sa
A szavak sz贸t枚vez茅se
Dokumentum felbont谩sa karakter
n-grammokra/szavakra/sz贸 n-
grammokra
Vektort茅rmodell kialak铆t谩sa

Budapest, 2012.11.13. www.neticle.hu

痴茅濒别尘茅苍测别濒别尘锄茅蝉颈
m贸dszerek

Budapest, 2012.11.13. www.neticle.hu

Fel眉gyelt g茅pi tanul谩ssal
megval贸s铆tott
v茅lem茅nym茅r茅si m贸dszerek

Legk枚zelebb szomsz茅d
m贸dszer

SVM naiv Bayes

Budapest, 2012.11.13. www.neticle.hu

K茅tszint疟 oszt谩lyoz谩s 茅s tan铆t贸halmaz alapj谩n
scoring rendszer kialak铆t谩sa

Budapest, 2012.11.13. www.neticle.hu

V茅lem茅nym茅r茅s d枚nt茅si f谩kkal

Budapest, 2012.11.13. www.neticle.hu

Szemantikus v茅lem茅nyorient谩ci贸
meg谩llap铆t谩sa PMI m贸dszerrel

Fel眉gyeletlen g茅pi tanul谩ssal megval贸s铆tott
v茅lem茅nym茅r茅s

Szemantikus v茅lem茅nyorient谩ci贸 meg谩llap铆t谩sa
szinonima sz贸t谩rra

Budapest, 2012.11.13. www.neticle.hu

G茅pi tanul谩s n茅lk眉li
m贸dszerek

Budapest, 2012.11.13. www.neticle.hu

V茅lem茅nysz贸 sz贸t谩r

V茅lem茅ny kifejez茅s sz贸t谩r

V茅lem茅nyer艖ss茅g sz贸t谩r

V茅lem茅nym贸dos铆t贸 sz贸t谩r

A Neticle sz贸t谩r alap煤 m贸dszere

Budapest, 2012.11.13. www.neticle.hu

Ki Hogyan Nyelv Accuracy

SVM algoritmussal unigrammok
felhaszn谩l谩s谩val IMDB
weboldal filmkritik谩inak
Pang et al (2002) elemz茅se angol 82,90%

Szubjektivit谩s oszt谩lyoz谩ssal majd
Naiv Bayes m贸dszerrel
megval贸s铆tott hierarchikus
oszt谩lyoz谩ssal IMDB weboldal
Pang et al (2004) filmkritik谩inak elemz茅se angol 86,40%

Hatzivassiloglu Sz贸t谩r alap煤 m贸dszerrel a
茅s sz枚vegekben l茅v艖 mell茅knevek
McKeown orient谩ci贸ja alapj谩n becs眉lt茅k
(Szaszk贸 et al, meg dokumentumok
2009 alapj谩n) orient谩ci贸j谩t angol 78%

Sz贸t谩r alap煤 m贸dszerrel
weboldalak sz枚veg茅nek
Neticle v茅lem茅nyelemz茅se magyar 80,48%

Budapest, 2012.11.13. www.neticle.hu

Ki Hogyan Nyelv Accuracy

C4.5 d枚nt茅si fa algoritmussal
kombin谩lt f贸rum v谩laszol谩si
gr谩fmegold谩ssal
Berend 茅s Farkas n茅pszavaz谩sr贸l alkotott
(2008) v茅lem茅nyek oszt谩lyoz谩sa magyar 71,76%

240 magyar nyelv疟 filmkritika pozit铆v
negat铆v oszt谩lyoz谩sa 煤n.
robosztus kock谩zat
minimaliz谩l谩s elven alapul贸
Szaszk贸 et al (2009) oszt谩lyoz谩ssal. magyar 76%

Ha minden mondatot, a
leggyakoribb, a semleges
Baseline pontoss谩g kateg贸ri谩ba sorolunk magyar 58,71%

Sz贸t谩r alap煤 m贸dszerrel weboldalak
Neticle sz枚veg茅nek v茅lem茅nyelemz茅se magyar 80,48%

Budapest, 2012.11.13. www.neticle.hu

脡rdekl艖d艖knek aj谩nlott:

Tikk, D. [2007]: Sz枚vegb谩ny谩szat, Typotex Elektronikus Kiad贸 Kft,
Budapest
Liu, B. [2011]: Sentiment Analysis Tutorial. AAAI-2011 Conference, San
Francisco, USA. (let枚lthet艖:, utolj谩ra let枚ltve:
http://www.cs.uic.edu/~liub/FBS/Sentiment-Analysis-tutorial-AAAI-2011.pdf
, 2012. 谩prilis 19-茅n)
Mih谩ltz M谩rton [2010]: OpinHu: online sz枚vegek t枚bbnyelv疟
v茅lem茅nyelemz茅se, VII. Magyar Sz谩m铆t贸g茅pes Nyelv茅szeti Konferencia
Berend, G., Farkas, R. [2008]: Opinion Mining in Hungarian based on
textual and graphical clues, in Proceedings of the 4th Intern. Symposium
on Data Mining and Intelligent Information Processing, Santander, 2008.

Budapest, 2012.11.13. www.neticle.hu

The document discusses the importance of lean analytics for startups and enterprises, emphasizing the need for effective metrics to drive decision-making and improve business outcomes. It differentiates between vanity metrics and actionable metrics while underscoring the significance of understanding customer behavior and the stages of business development. The lean analytics framework provides a structured approach to measuring success and optimizing growth through targeted metrics.

贸搁补惫谩锄濒补迟urzika

听

贸搁补惫谩锄濒补迟urzika

听

贸搁补惫谩锄濒补迟urzika

听

贸搁补惫谩锄濒补迟urzika

听

贸搁补惫谩锄濒补迟juhaszde

听

Digit weisdoraweisdora

听

Microsegment corpus 01.32 statisticsCsaba Kiss

听

Neticle - A webes v茅lem茅nyelemz茅s lehet艖s茅gei @conTTEXT 2013Szekeres P茅ter

听

贸搁补惫谩锄濒补迟szatmarimelinda

听

贸搁补惫谩锄濒补迟szatmarimelinda

听

狠狠撸share angol 贸rav谩zlatDebreceni Adrian

听

Digit谩lis 贸rav谩zlat angol 贸r谩ramangohusi

听

Garajszki gy枚rgy t枚rt茅nelembagcsika

听

Halozati oravazlatL谩szl贸 Valcs谩k

听

贸搁补惫谩锄濒补迟 hunyadiLajos Tar

听

Halozati oravazlatL谩szl贸 Valcs谩k

听

Csekein茅 vag谩cs zsuzsa digit谩lis 贸rav谩zlat v茅glegesvagacszs

听

脱谤补惫谩锄濒补迟 vassne

听

G abi halozati_fejlecGabriella Radeleczki

听

疟Rlap 1HUFR2C

听

贸搁补惫谩锄濒补迟脕gnes Kaposin茅 H茅ger

听

It3 4 2 4 2 1Project IT3

听

贸搁补惫谩锄濒补迟 rajz 4.o.melinda65

听

Informatika 贸rav谩zlat Sz茅kely GabriellaGabriella Sz茅kely

听

贸Raterv barn谩n茅 kiss 茅va - 11a - a mozg贸k茅pi sz枚vegek rendszerez茅sebarnane

听

The Tools of Government: A Guide to the New Governance 1st Editionkaubxurs1992

听

Test Bank for International Human Resource Management, 7th Edition, Peter Dow...jludsladl4344

听

Neticle bce om_preso_20121113

1. Neticle Technologies Automatikus v茅lem茅nyelemz茅s Szekeres P茅ter, vezet艖 kutat贸 peter.szekeres@neticle.hu tel.: +36 70 7016488 www.neticle.hu Budapest, 2012.11.13. www.neticle.hu

2. A v茅lem茅nyelemz茅s vagy sentiment analysis c茅lja olyan algoritmusok kialak铆t谩sa, melyek sz谩mszer疟s铆tik k眉l枚nb枚z艖 sz枚vegek v茅lem茅nypolarit谩s谩t valamilyen pozit铆v-negat铆v sk谩l谩n. Budapest, 2012.11.13. www.neticle.hu

3. A v茅lem茅nyelemz茅s sz谩m铆t谩studom谩nyb贸l menedzsment eszk枚zz茅 n艖tte ki mag谩t. (Liu, 2011) Budapest, 2012.11.13. www.neticle.hu

4. Mire lehet haszn谩lni? 脰sszehasonl铆t谩s versenyt谩rsakkal Kamp谩nyok, esem茅nyek hat谩sainak vizsg谩lata Automatikus 茅rtes铆t茅sek (er艖sen negat铆v tartalmak eset茅n) F艖 ellenz艖茅s f艖 t谩mogat贸 felhaszn谩l贸k azonos铆t谩sa F艖 ellenz艖茅s f艖 t谩mogat贸 weboldalak Ad-hoc elemz茅sek v茅grehajt谩sa Budapest, 2012.11.13. www.neticle.hu

5. WebLib Neticle Magyar szerepl艖k MorphoLogic OpinHu Budapest, 2012.11.13. www.neticle.hu

6. Radian6 Budapest, 2012.11.13. www.neticle.hu

7. Text mining Data mining NLP Machine learning Budapest, 2012.11.13. www.neticle.hu

8. Magyar nyelv疟 sz枚vegek automatikus feldolgoz谩s谩nak neh茅zs茅gei Budapest, 2012.11.13. www.neticle.hu

9. 鲍迟贸谤补驳辞锄谩蝉 sisak, reggel, folyamod Tikk (2007) szerint egy f艖n茅vnek ak谩r 1400, mell茅kn茅vnek ak谩r 2700 alakja lehet Budapest, 2012.11.13. www.neticle.hu

10. Hunglish kifejez茅sek j煤zerrel, l谩jkol, szisztem, deployol Budapest, 2012.11.13. www.neticle.hu

11. Szleng 茅s webes szleng lol, lolz, omg, sz@r, f@ck u, mind1, h, zomg Budapest, 2012.11.13. www.neticle.hu

12. Tagad贸szavakkal 茅s tilt贸szavakkal (p茅ld谩ul: sem, nem, se, ne, se nem, sincs, nincs, sincsen, nincsen), Tagad谩s Foszt贸k茅pz艖k (p茅ld谩ul: -atlan, -etlen, -mentes) Budapest, 2012.11.13. www.neticle.hu

13. Beviteli eszk枚z miatti saj谩toss谩gok Karakterk贸dol谩si neh茅zs茅gek Budapest, 2012.11.13. www.neticle.hu

14. Sz贸t枚vez茅s vs. lemmatiz谩l谩s Budapest, 2012.11.13. www.neticle.hu

15. Szint Lev谩gand贸 P茅lda Nincs - 0. lev谩g谩s 1. Ragok T枚bbes sz谩m els艖 szem茅ly ragja: Fizet眉nk -> Fizet Ragok 茅s T枚bbes sz谩m els艖 szem茅ly ragja: Fizet眉nk -> Fizet 2. jelek T枚bbes sz谩m els艖 szem茅ly ragja + m煤lt id艖 jele: Fizett眉nk -> Fizet Ragok, jelek T枚bbes sz谩m els艖 szem茅ly ragja: Fizet眉nk -> Fizet 茅s k茅pz艖k T枚bbes sz谩m els艖 szem茅ly ragja + m煤lt id艖 jele: 3. Fizett眉nk -> Fizet Igen茅vi k茅pz艖: Fizetend艖 -> Fizet Ragok, T枚bbes sz谩m els艖 szem茅ly ragja: Fizet眉nk -> Fizet jelek, T枚bbes sz谩m els艖 szem茅ly ragja + m煤lt id艖 jele: 4. k茅pz艖k 茅s Fizett眉nk-> Fizet igek枚t艖k Igen茅vi k茅pz艖: Fizetend艖 -> Fizet Igek枚t艖: Megfizet -> Fizet Budapest, 2012.11.13. www.neticle.hu

16. Algoritmikus, nyelvspecifikus transzform谩ci贸s szab谩lyok Sz贸t枚vez茅si m贸dszerek Szavakat 茅s sz贸t枚veiket alkalmaz贸 sz贸t谩rak alkalmaz谩sa Budapest, 2012.11.13. www.neticle.hu

17. Sz贸t谩r alap煤 sz贸t枚vez茅s Szab谩ly alap煤 sz贸t枚vez茅s Lass煤 Gyors Teljes铆tm茅ny Elm茅letileg 100%-os Kiv茅telsz贸t谩r bevezet茅s茅vel Pontoss谩g pontoss谩got is el茅rhet meglehet艖sen pontos Csak azokra sz贸alakokra 脷j szavak eset茅n el茅g csak a m疟k枚dik, amelyek kiv茅telsz贸t谩rakat b艖v铆teni, Sk谩l谩zhat贸s谩g szerepelnek a azt is csak sz眉ks茅g eset茅n sz贸t谩rakban. Kiv茅teles, Kiv茅telek, rendhagy贸 Kiv茅telek neh茅zkes rendhagy贸 esetek hat茅kony kezel茅se esetek kezel茅se Kiv茅tel sz贸t谩rak kezel茅se bevezet茅s茅vel t枚rt茅nik Nyelvf眉ggetlen megold谩s Nyelvf眉gg艖 megold谩s, jelent艖s Nyelvf眉gg艖s茅g nyelvspecifikus ismereteket ig茅nyel B艖v铆thet艖s茅g, Egyszer疟 b艖v铆thet艖s茅g Neh茅zkes b艖v铆thet艖s茅g fejleszthet艖s 茅g F谩rads谩gos sz贸t谩r茅p铆t茅s Bonyolult szab谩lyrendszer Megval贸s铆t谩s Folyamatos karbantart谩s 茅p铆t茅s Budapest, 2012.11.13. www.neticle.hu

18. HunStem P茅ld谩k magyar nyelv疟 Tordai Anna sz贸t枚vez茅sre Neticle sz贸t枚vez艖je Budapest, 2012.11.13. www.neticle.hu

19. Budapest, 2012.11.13. www.neticle.hu

20. Raglev谩g贸 pontoss谩g谩nak alakul谩sa 100% 90% 80% 70% 60% 50% Raglev谩g贸 pontoss谩ga 40% 谩tlagosan: 89,67% 30% 20% 10% 0% 1 1203 2405 3607 4809 6011 7213 8415 9617 10819 12021 13223 14425 15627 Sz贸sz谩m Budapest, 2012.11.13. www.neticle.hu

21. 痴茅濒别尘茅苍测别濒别尘锄茅蝉颈 kih铆v谩sok Budapest, 2012.11.13. www.neticle.hu

22. 罢茅苍测别锄艖 Le铆r谩s Sz枚vegb谩ny谩s Feladat zati neh茅zs茅 feladat ge C茅l entit谩s Amire a v茅lem茅ny N茅velem Neh茅z vonatkozik, p茅ld谩ul: azonos铆t谩s iPhone Aspektus, A c茅l entit谩s tulajdons谩ga Inform谩ci贸kinye Neh茅z attrib煤tum vagy r茅szeleme, amire a r茅s v茅lem茅ny vonatkozik. V茅lem茅ny Maga a - t枚bbnyire V茅lem茅nykinyer K枚nny疟 szubjekt铆v - v茅lem茅ny 茅s Forr谩s Az a szem茅ly (felhaszn谩l贸) Inform谩ci贸kinye Neh茅z aki megfogalmazta a r茅si 茅s v茅lem茅nyt n茅velem azonos铆t谩si feladat Id艖 A v茅lem茅ny Inform谩ci贸kinye Neh茅z megjelen茅s茅nek/keletkez r茅si 茅s 茅s茅nek ideje n茅velem azonos铆t谩si feladat Budapest, 2012.11.13. www.neticle.hu

23. A megfelel艖 sz枚vegegys茅g meghat谩roz谩sa Budapest, 2012.11.13. www.neticle.hu

24. A c茅l entit谩s azonos铆t谩sa Budapest, 2012.11.13. www.neticle.hu

25. 狈茅锄艖辫辞苍迟辞办鈥濭oogle r茅szv茅nyek 谩ra sz谩rnyal ma鈥� Budapest, 2012.11.13. www.neticle.hu

26. Szakter眉leti sz贸t谩rspecializ谩ci贸 Budapest, 2012.11.13. www.neticle.hu

27. Dokumentum beolvas谩sa Speci谩lis karakterk贸dol谩sok kezel茅se Dokumentum feldarabol谩s Tipikus Stopszavak kisz疟r茅se el艖feldolgoz谩si T枚bbf茅le 铆r谩sm贸d egy茅rtelm疟s铆t茅se folyamat Szavak kisbet疟ss茅 alak铆t谩sa A szavak sz贸t枚vez茅se Dokumentum felbont谩sa karakter n-grammokra/szavakra/sz贸 n- grammokra Vektort茅rmodell kialak铆t谩sa Budapest, 2012.11.13. www.neticle.hu

28. 痴茅濒别尘茅苍测别濒别尘锄茅蝉颈 m贸dszerek Budapest, 2012.11.13. www.neticle.hu

29. Fel眉gyelt g茅pi tanul谩ssal megval贸s铆tott v茅lem茅nym茅r茅si m贸dszerek Legk枚zelebb szomsz茅d m贸dszer SVM naiv Bayes Budapest, 2012.11.13. www.neticle.hu

30. K茅tszint疟 oszt谩lyoz谩s 茅s tan铆t贸halmaz alapj谩n scoring rendszer kialak铆t谩sa Budapest, 2012.11.13. www.neticle.hu

31. V茅lem茅nym茅r茅s d枚nt茅si f谩kkal Budapest, 2012.11.13. www.neticle.hu

32. Szemantikus v茅lem茅nyorient谩ci贸 meg谩llap铆t谩sa PMI m贸dszerrel Fel眉gyeletlen g茅pi tanul谩ssal megval贸s铆tott v茅lem茅nym茅r茅s Szemantikus v茅lem茅nyorient谩ci贸 meg谩llap铆t谩sa szinonima sz贸t谩rra Budapest, 2012.11.13. www.neticle.hu

33. G茅pi tanul谩s n茅lk眉li m贸dszerek Budapest, 2012.11.13. www.neticle.hu

34. V茅lem茅nysz贸 sz贸t谩r V茅lem茅ny kifejez茅s sz贸t谩r V茅lem茅nyer艖ss茅g sz贸t谩r V茅lem茅nym贸dos铆t贸 sz贸t谩r A Neticle sz贸t谩r alap煤 m贸dszere Budapest, 2012.11.13. www.neticle.hu

35. Budapest, 2012.11.13. www.neticle.hu

36. Budapest, 2012.11.13. www.neticle.hu

37. Budapest, 2012.11.13. www.neticle.hu

38. Budapest, 2012.11.13. www.neticle.hu

39. Ki Hogyan Nyelv Accuracy SVM algoritmussal unigrammok felhaszn谩l谩s谩val IMDB weboldal filmkritik谩inak Pang et al (2002) elemz茅se angol 82,90% Szubjektivit谩s oszt谩lyoz谩ssal majd Naiv Bayes m贸dszerrel megval贸s铆tott hierarchikus oszt谩lyoz谩ssal IMDB weboldal Pang et al (2004) filmkritik谩inak elemz茅se angol 86,40% Hatzivassiloglu Sz贸t谩r alap煤 m贸dszerrel a 茅s sz枚vegekben l茅v艖 mell茅knevek McKeown orient谩ci贸ja alapj谩n becs眉lt茅k (Szaszk贸 et al, meg dokumentumok 2009 alapj谩n) orient谩ci贸j谩t angol 78% Sz贸t谩r alap煤 m贸dszerrel weboldalak sz枚veg茅nek Neticle v茅lem茅nyelemz茅se magyar 80,48% Budapest, 2012.11.13. www.neticle.hu

40. Ki Hogyan Nyelv Accuracy C4.5 d枚nt茅si fa algoritmussal kombin谩lt f贸rum v谩laszol谩si gr谩fmegold谩ssal Berend 茅s Farkas n茅pszavaz谩sr贸l alkotott (2008) v茅lem茅nyek oszt谩lyoz谩sa magyar 71,76% 240 magyar nyelv疟 filmkritika pozit铆v negat铆v oszt谩lyoz谩sa 煤n. robosztus kock谩zat minimaliz谩l谩s elven alapul贸 Szaszk贸 et al (2009) oszt谩lyoz谩ssal. magyar 76% Ha minden mondatot, a leggyakoribb, a semleges Baseline pontoss谩g kateg贸ri谩ba sorolunk magyar 58,71% Sz贸t谩r alap煤 m贸dszerrel weboldalak Neticle sz枚veg茅nek v茅lem茅nyelemz茅se magyar 80,48% Budapest, 2012.11.13. www.neticle.hu

41. Budapest, 2012.11.13. www.neticle.hu

42. 脡rdekl艖d艖knek aj谩nlott: Tikk, D. [2007]: Sz枚vegb谩ny谩szat, Typotex Elektronikus Kiad贸 Kft, Budapest Liu, B. [2011]: Sentiment Analysis Tutorial. AAAI-2011 Conference, San Francisco, USA. (let枚lthet艖:, utolj谩ra let枚ltve: http://www.cs.uic.edu/~liub/FBS/Sentiment-Analysis-tutorial-AAAI-2011.pdf , 2012. 谩prilis 19-茅n) Mih谩ltz M谩rton [2010]: OpinHu: online sz枚vegek t枚bbnyelv疟 v茅lem茅nyelemz茅se, VII. Magyar Sz谩m铆t贸g茅pes Nyelv茅szeti Konferencia Berend, G., Farkas, R. [2008]: Opinion Mining in Hungarian based on textual and graphical clues, in Proceedings of the 4th Intern. Symposium on Data Mining and Intelligent Information Processing, Santander, 2008. Budapest, 2012.11.13. www.neticle.hu

Editor's Notes

#2: Szekeres P茅ter Neticle Technologies Bemutatkoz谩s
#6: Neticle WebLib MorphoLogic OpinHu
#9: 鲍迟贸谤补驳辞锄谩蝉 kezel茅se: a strukturalista nyelvtan n茅zetet lev谩lt贸 Noam Chomsky 谩ltal bevezetett generat铆v nyelvelm茅let 煤j megk枚zel铆t茅st hozott a nyelvek kezel茅s茅be. A generat铆v nyelvelm茅let jelent艖s茅ge a nyelvek 茅s a sz枚vegk茅pz茅s matematikai megragad谩s谩ban 鈥� algoritmiz谩l谩s谩ban - rejlik: Chomsky modellje alapj谩n egy nyelvnek v茅gtelen vari谩ci贸ja l茅tezhet az alap sz贸k茅szlet (jelk茅szlet) 茅s a sz贸- 茅s sz枚vegk茅pz茅si szab谩lyok alapj谩n. (Chomsky, 1965) A generat铆v megk枚zel铆t茅s k眉l枚n枚sen igaz a magyar 茅s a t枚bbi agglutin谩l贸 nyelvre. A toldal茅kol贸茅s szabad strukt煤r谩j煤 nyelvek automatikus feldolgoz谩s谩ra, mint p茅ld谩ul a magyar, a sz贸zs谩k modell a leggyakrabban alkalmazott m贸dszer. Ugyanakkor a sz枚vegek sz贸zs谩k modell alap煤 feldolgoz谩s谩hoz sz眉ks茅ges, hogy az azonos jelent茅s疟nek tekintett szavak azonos alakra ker眉ljenek, vagyis a gyakorlatban az ut贸ragokat 茅s bizonyos jeleket le kell v谩gni a sz贸v茅gekr艖l. A lev谩g谩sok algoritmiz谩l谩s谩n谩l k茅pezhet艖ek szab谩lyok, azonban ezeknek figyelembe kell venni眉k az 枚sszeolvad谩si, r茅szleges vagy 茅ppen teljes hasonul谩si nyelvtani szab谩lyokat, valamint az olyan sz贸t枚veket, melyek valamilyen ut贸ragra v茅gz艖dnek (p茅ld谩ul: sis ak , reg gel ). K眉l枚n probl茅ma azon esetek kezel茅se, amikor a ragozott 茅s a ragn茅lk眉li alak is 茅rtelmes sz贸t艖, p茅ld谩ul: folyam od . A probl茅m谩t j贸l mutatja, hogy egy ig茅nek az igei toldal茅kol谩s teljes reperto谩rj谩t felhaszn谩lva t枚bb mint 100 form谩ja lehet a magyar nyelvben: Igeid艖: 3 Igem贸d: 3 Szem茅ly: 3 Sz谩m: 2 Igenem: 2 Alanyi/T谩rgyas ragoz谩s: 2 脰sszesen : 3 x 3 x 3 x 2 x 2 x 2 = 216 [1] Tikk (2007) szerint egy f艖n茅vnek ak谩r 1400, mell茅kn茅vnek ak谩r 2700 alakja lehet! Hunglish kifejez茅sek: a webes sz枚vegekben, k眉l枚n枚sen szakmai sz枚vegekben vagy 茅ppen olyan inform谩lis m茅diumokban, mint a k枚z枚ss茅gi oldalak, f贸rumok vagy blogok, igen elterjedt az angol nyelv疟 szavak haszn谩lata magyar mondatokban, p茅ld谩ul: trademark , outsourcing , trading , like , system, event, share A webes nyelvi uniformiz谩l贸d谩s 茅s mut谩l贸d谩s egy m谩sik jelens茅ge, mikor angol nyelv疟 szavakat 鈥瀖agyaros铆tanak鈥� a nyelvhaszn谩l贸k, azaz a kiejt茅s elve szerint 铆rj谩k le, 茅s a magyar nyelvtan szab谩lyai szerint ragozz谩k az idegen eredet疟 szavakat, p茅ld谩ul: j煤zerrel , l谩jkol , szisztem, deployol Szleng 茅s web szleng: amikor webes sz枚vegeket elemz眉nk, figyelembe kell venn眉nk, hogy a web nyelvezete modern 茅s saj谩tos, 茅s 谩ltal谩nosak a szleng 茅s webes szleng kifejez茅sek, valamint az emotikonok haszn谩lata. K眉l枚n枚sen igaz mindez 茅rzelmi megnyilv谩nul谩sokra: lol , lolz , omg , [email_address] , f@ck u, mind1, h, zomg Beviteli eszk枚z miatti saj谩toss谩gok: a hordozhat贸 eszk枚z枚kr艖l (tipikusan okostelefonokr贸l) t枚rt茅n艖 bevitelnek k枚sz枚nhet艖en az inform谩lis k枚z枚ss茅gi oldalakon sokszor tal谩lkozhatunk eg茅szen saj谩tos szintaktikai 茅s szemantikai szab谩lyokat k枚vet艖 mondatokkal 茅s f茅lmondatokkal: Nincsenek 茅kezetek. Nincsenek nagybet疟k Nincsenek 铆r谩sjelek a sz枚vegben, vagy csak mondatv茅gi 铆r谩sjelek haszn谩l a szerz艖. A szavak helyes铆r谩sa laz谩n kezelt. Jellemz艖ek az elg茅pel茅sek. Ha sz谩m铆t贸g茅ppel akarjuk feldolgozni ezeket a kommenteket 茅s hozz谩sz贸l谩sokat, akkor az eml铆tett jelens茅gek t枚meges el艖fordul谩s谩ra fel kell k茅sz铆teni a rendszert. Karakterk贸dol谩si neh茅zs茅gek: kev茅sb茅 trivi谩lis, de magyar nyelv疟 webes sz枚vegek sz谩m铆t贸g茅pes feldolgoz谩s谩n谩l tipikus probl茅ma a karakterk贸dol谩s megfelel艖 kezel茅se: HTML oldalak let枚lt茅s茅n茅l illetve sz枚vegek adatb谩zisba vagy f谩jlba export谩l谩s谩n谩l figyelni kell, hogy a magyar 茅kezetes bet疟k (azon bel眉l is els艖sorban az 艖茅s 疟 bet疟k) megjelen铆t茅se megfelel艖-e: UTF-8 vagy Latin2 karakterk贸dol谩s aj谩nlott. Szint茅n HTML oldalak feldolgoz谩sakor lehet probl茅ma, ha az adott kiszolg谩l贸 az 茅kezetes 茅s egy茅b k眉l枚nleges karaktereket a sz枚vegben HTML karakterk贸ddal (p茅ld谩ul: &aacute; -> 谩) jel枚li a forr谩sf谩jlban. Ekkor gondoskodni kell a dek贸dol谩sr贸l feldolgoz谩s el艖tt. Kontextus- 茅s szakter眉leti f眉gg艖s茅g: v茅lem茅nyek sz贸zs谩k modell alap煤 elemz茅s茅n茅l probl茅ma lehet, hogy egy adott sz贸 vagy kifejez茅s kontextusonk茅nt elt茅r艖 jelent茅ssel b铆rhat: egy kifejez茅s pozit铆v egy adott kontextusban, m铆g ellent茅tes ir谩ny煤 egy m谩sik kontextusban. Tagad谩sok sokf茅les茅ge : a magyar nyelvben a tagad谩s t枚bbf茅le m贸don lehets茅ges: Tagad贸szavakkal 茅s tilt贸szavakkal (p茅ld谩ul: sem, nem, se, ne, se nem, sincs, nincs, sincsen, nincsen ), melyek elhelyezkedhetnek k枚zvetlen眉l a vagy ak谩r 1 poz铆ci贸val a tagad谩s t谩rgya el艖tt illetve ut谩n. Foszt贸k茅pz艖k (p茅ld谩ul: -atlan, -etlen, -mentes) seg铆ts茅g茅vel Egy v茅lem茅nyelemz艖 rendszern茅l alapk枚vetelm茅ny, hogy a rendszernek kezelnie kell a k眉l枚nb枚z艖 tagad谩sokat (a polarit谩s neg谩l谩s谩t), elt茅r艖 esetben drasztikusan romlik a v茅lem茅nyelemz茅s pontoss谩ga, mivel pontosan ellent茅tesen 茅rtelmezi az adott v茅lem茅nyt. [1] A val贸s谩gban valamivel kevesebb az 枚sszes lehets茅ges alak, mert p茅ld谩ul a szenved艖 ig茅knek nincsen t谩rgyas ragoz谩sa.
#15: A sz贸t枚vez茅s illetve lemmatiz谩l谩s [1] k眉l枚n枚sen fontos el艖feldolgoz谩si l茅p茅s a sz枚veges adatok sz谩m铆t贸g茅pes elemz茅se sor谩n, seg铆ts茅g眉kkel egys茅ges, kanonikus alakra hozhat贸ak a sz枚vegek szavai. Defin铆ci贸 szerint : 鈥� a sz贸t枚vez茅s egy olyan algoritmus, mely sor谩n a toldal茅kokkal ell谩tott sz贸 alapj谩n el艖谩ll铆tjuk a sz贸t枚vet .鈥� (Fajszi (2010) 295. oldal) A toldal茅kok lev谩g谩s谩val n枚velhet艖 a sz贸el艖fordul谩son vagy t枚bb szavas kifejez茅sek el艖fordul谩s谩n alapul贸 elemz茅sek illetve sz枚veges keres茅si feladatok pontoss谩ga. Ugyanakkor sz枚vegb谩ny谩szati elemz茅sek megval贸s铆t谩s谩n谩l is figyelembeveend艖 mind t谩rhely mind feldolgoz谩si teljes铆tm茅ny szempontj谩b贸l, hiszen ha az elemzett sz枚vegeket vektort茅rmodellben [2] reprezent谩ljuk, akkor a 鈥� vektort茅rmodell m茅ret茅t jelent艖sen cs枚kkenthetj眉k, mivel a sz贸alakonk茅nti dimenzi贸 helyett a kanonikus alakhoz csak a vektort茅r egy dimenzi贸ja tartozik.鈥� (Tikk (2007) 41. oldal). Az ily m贸don t枚rt茅n艖 redukci贸 jelent艖sen cs枚kkentheti egy elemz茅si alkalmaz谩s t谩rhely, mem贸ria 茅s sz谩m铆t谩si kapacit谩s sz眉ks茅glet茅t. Tikk (2007) szerint angol nyelvre 40-70%, m铆g nyelvre ak谩r 90%-os m茅ret-megtakar铆t谩st is jelenthet a sz贸t枚vez茅s. A tov谩bbiakban k眉l枚nbs茅get tesz眉nk sz贸t枚vez茅s 茅s lemmatiz谩l谩s k枚z枚tt: Sz贸t枚vez茅s : a toldal茅kok lev谩g谩sa ut谩n marad贸 sz贸 nem felt茅tlen眉l 茅rtelmes sz贸alak a k枚t艖hangok 茅s hangz贸m贸dosul谩sok miatt, p茅ld谩ul: ajtaja -> ajt. Lemmatiz谩l谩s: 鈥濧 k眉l枚nb枚z艖 sz贸alakok lemm谩kba val贸 csoportos铆t谩sa.鈥� (Szirmai (2005) 177. o.) Ahol a lemma az 鈥瀉zonos sz贸t艖b艖l sz谩rmaz贸枚sszes (谩ltal谩ban azonos sz贸faj煤) sz贸alakot 谩tfog贸 kateg贸ria, pl. ugr谩l, ugrik, ugrott stb. A kutat谩s ig茅nyeihez igazodva k眉l枚nb枚z艖 sz贸faj煤 alakok is tartozhatnak egy lemm谩ba.鈥� (Szirmai (2005) 177. o.) A lemm谩kat reprezent谩l贸 sz贸alak 枚nmag谩ban 茅rtelmes, normaliz谩lt sz贸t谩ri sz贸alak: ajtaja -> ajt贸. (Tikk (2007)) A fenti 茅rtelemben a lemmatiz谩l谩s valamivel bonyolultabb feladat, jellemz艖en a sz贸t枚vez茅si toldal茅k-lev谩g谩si elj谩r谩sok kieg茅sz铆t茅se ut贸feldolgoz谩si transzform谩ci贸kkal. A probl茅m谩t nehez铆ti, hogy az ut贸feldolgoz谩si kieg茅sz铆t艖 l茅p茅sek gyakorlatilag egyediek a magyar nyelv szavai eset茅n. [3] Nem agglutin谩l贸 nyelvekn茅l a sz贸t枚vez茅s 茅s a lemmatiz谩l谩s feladat k枚z枚tt nincs jelent艖s k眉l枚nbs茅g. A bonyolults谩ga ellen茅re az 茅rtelmes alakot ad贸 lemmatiz谩l谩s aj谩nlott, mivel az 铆gy kapott dokumentum reprezent谩ci贸k ugyan煤gy kanonikus sz贸alakok halmaz谩n alapulnak 鈥� megval贸s铆tva a sz贸k茅szlet redukci贸 minden el艖ny茅t -, emellett pedig t枚k茅letesen alkalmasak a kapott 茅rtelmes sz贸alakok a tov谩bbi feldolgoz谩sra, p茅ld谩ul ak谩r k枚zvetlen眉l megjelen铆thet艖ek a felhaszn谩l贸 sz谩m谩ra egy alkalmaz谩sban sz贸gyakoris谩gi diagram vagy sz贸felh艖 form谩j谩ban. [4] [1] Angolul: stemming [2] A vektort茅rmodell l茅nyege, hogy egy dokumentumot szavakra bontunk, 茅s a benne el艖fordul贸 szavak 谩br谩zoljuk. Egy dokumentumhalmaz eset茅n ez azt jelenti, hogy a korpuszt egy jellemz艖en igen nagy m茅ret疟 k茅tdimenzi贸s ritkam谩trix-szal reprezent谩ljuk el艖feldolgoz谩s ut谩n, ahol a m谩trix egy egyik dimenzi贸ja a dokumentumokat, a m谩sik pedig a korpuszban el艖fordul贸 szavakat jel枚li. A m谩trix mez艖i jel枚lik, hogy adott dokumentumban az adott sz贸 szerepel-e. (A bin谩ris 茅rt茅keken mellett m谩s 茅rt茅keket is szoktak sz谩molni a vektort茅rmodell mez艖ibe, p茅ld谩ul gyakoris谩gokat, vagy norm谩lt gyakoris谩gokat, stb. (l谩sd m茅g: TF-IDF s煤lyoz谩s)). [3] P茅ld谩ul az angol nyelvre k茅sz铆tett egyik els艖 sz贸tv枚ez艖, a Lovins-t枚vez艖 gyengepontja volt ez az ut贸lagos transzform谩ci贸. [4] A Smirnov (2008) 谩ltal hivatkozott Frakes (1984) ennek ellenkez艖je mellett 茅rvel, szerinte a sz贸t枚vez茅s/lemmatiz谩l谩s nyugodtan adjon 枚nmag谩ban nem 茅rtelmes t艖 alakot, mivel bels艖 feldolgoz谩sn谩l a kanonikus alak jellemz艖en csak egy dimenzi贸 vagy attrib煤tum. Frakes azonban figyelmen k铆v眉l hagyja az eredm茅nyek felhaszn谩l贸bar谩t megjelen铆t茅s茅t, csak a bels艖 elemz茅s hat茅konys谩g谩t tartja szem el艖tt.
#17: Algoritmikus, nyelvspecifikus transzform谩ci贸s szab谩lyok: nagy teljes铆tm茅nyre k茅pes megold谩sok, melyek pontoss谩ga kiv茅telsz贸t谩rral er艖sen jav铆that贸. Megval贸s铆t谩saik komoly nyelv茅szeti ismereteket ig茅nyel. Ilyen, 谩t铆r谩sos szab谩lyhalmazon alapul贸 m贸dszer p茅ld谩ul Porter algoritmusa (l谩sd: 5.3.4 fejezet) vagy az annak m疟k枚d茅si elv茅t t枚bb nyelvre alkalmaz贸, szint茅n Porter 谩ltal k茅sz铆tett Snowball sz贸t枚vez茅si keretrendszer (l谩sd: 5.3.5 fejezet). Szavakat 茅s sz贸t枚veiket alkalmaz贸 sz贸t谩rak alkalmaz谩sa: j贸l kezeli a rendhagy贸 eseteket, azonban a sz贸t谩r fel茅p铆t茅se meglehet艖sen id艖ig茅nyes, 茅s folyamatos karbantart谩st ig茅nyel. Egy茅b, statisztikai m贸dszerek : jellemz艖en nyelvf眉ggetlen megold谩sok. P茅ld谩ul: Szavakat 茅s toldal茅kokat tartalmaz贸 sz贸t谩rakban a szavak lehets茅ges felbont谩sainak el艖fordul谩sainak ellen艖rz茅se. Sz贸t谩rklaszterez茅s 煤tj谩n t枚rt茅n艖 vizsg谩lat, annak meg谩llap铆t谩s谩ra, hogy melyik szavakhoz tartozhat azonos t艖.
#19: HunStem A HunStem a BME MOKK [1] 谩ltal fejlesztett szab谩ly 茅s sz贸t谩r alap煤 sz贸t枚vez艖. A HunStem az 煤n. HunLex keretrendszerben megval贸s铆tott morphdb.hu [2] adatb谩zison alapul 茅s a hozz谩 kapcsol贸d贸 nyelvi eszk枚z枚k (HunTools: HunStem, HunSpell, HunMorph) egyike. A HunStem a nyelvtani szab谩lyrendszere (morfol贸giai er艖forr谩sai) mellett haszn谩l a sz贸t枚vez茅shez egy t艖t谩rat 茅s egy affixumt谩rat (lexikai er艖forr谩s). A lexikai 茅s morfol贸giai er艖forr谩sokat a HunLex rendszer 谩ll铆tja el艖 a bels艖 komplex nyelvtani rendszere 茅s nyelvet le铆r贸谩tfog贸 lexikona alapj谩n att贸l f眉gg艖en, hogy p茅ld谩ul gyenge (ink谩bb alult枚vez茅sre hajlamos) vagy er艖s (ink谩bb t煤lt枚vez茅sre hajlamos) t枚vez茅si algoritmusra van sz眉ks茅g az adott feladathoz. (A rendszer sz贸t谩ra t枚bb mint 120听000 magyar lemm谩t tartalmaz.) Tordai-f茅le magyar Snowball alap煤 sz贸t枚vez艖 Tordai Anna megold谩sa az 煤gynevezett inflexi贸s toldal茅kokat v谩gja le, azaz csak a ragokat 茅s jeleket, a k茅pz艖ket nem. Ez megfelel az 谩ltalam magyar nyelvre defini谩lt 2. sz贸t枚vez茅si szintnek. Tordai Anna 4 f茅le sz贸t枚vez艖 algoritmust alak铆tott ki magyar nyelvre (Tordai, 2005). Ezek jellemz艖i: LIGHT1 : 鈥� csak a leggyakoribb 14 f艖n茅vi esetet kezeli. Ennek ellen茅re m谩r ez is jelent茅kenyen jav铆thatja a keres茅si hat茅konys谩got .鈥� (Tikk, 2007) LIGHT2 : 鈥� 21 esetet kezel, valamint a LIGHT1 谩ltal figyelmen k铆v眉l hagyott egykarakteres toldal茅kok k枚z眉l az akkuzativusz (t谩rgyrag -t) 茅s szuperessz铆vusz (-n) toldal茅kokat is lev谩gja. Mindk茅t sz贸t枚vez艖 figyelembe veszi a sz贸t艖jel枚lt hossz谩t 茅s, hogy tartalmaz-e 茅rv茅nyes m谩ssalhangz贸鈥搈ag谩nhangz贸 kombin谩ci贸t .鈥� (Tikk, 2007) MEDIUM : 鈥� 12 gyakori f艖n茅vi esetet kezel, a birtokos 茅s birtokok, valamint a szem茅lyek sz谩m谩t is figyelembe v茅ve. Ezen k铆v眉l kezeli a leggyakoribb igealakokat (id艖, sz谩m, szem茅ly), a mell茅knevek fokoz谩s谩t, valamint a sz谩mnevekn茅l a t枚rtsz谩mn茅v 茅s sorsz谩mn茅v toldal茅kait.鈥� (Tikk, 2007) HEAVY : 鈥� mind a 21 esetet 茅s az 枚sszes igealakot figyelembe veszi.鈥� (Tikk, 2007) Az egyes megold谩sok az alkalmazott szab谩lyokban 茅s l茅p茅sekben k眉l枚nb枚znek. Homonim谩k eset茅n a r枚videbb alakot adja vissza a megold谩s, valamint a Heavy verzi贸 m谩r er艖sen t煤lt枚vez. Jellemz艖 hib谩ja a t v茅g疟 szavak t煤lt枚vez茅se a t谩rgyrag 茅s a m煤lt id艖 jele miatti lev谩g谩sok miatt. A k茅sz铆t艖k a CLEF[3] 2005 magyar nyelv疟 korpusz谩n v茅gzett kutat谩saik sor谩n azt tapasztalt谩k, hogy a Light2 茅s a Heavy t枚vez艖k az inform谩ci贸-visszakeres茅s[4] sor谩n magasabb felid茅z茅st ny煤jtanak a sz贸t枚vez茅s n茅lk眉li, illetve a m谩sik k茅t verzi贸n alapul贸 megold谩sn谩l. A Heavy verzi贸 a t煤lt枚vez茅si tulajdons谩ga miatt azonban rosszabb pontoss谩ggal b铆rt, ez茅rt a Light2 verzi贸t tal谩lt谩k a legalkalmasabbnak a k茅sz铆t艖k inform谩ci贸 visszakeres茅si feladatokhoz.[5] [1] Budapesti M疟szaki Egyetem M茅dia Oktat贸茅s Kutat贸 K枚zpont [2] L谩sd: http://mokk.bme.hu/resources/morphdb-hu/ [3] Common Language Evaluation Forum [4] Information retrieval [5] A teljes 茅rt茅kel茅shez hozz谩 tartozik, hogy a korpusz szavainak 65%-a f艖n茅v, 12%-a mell茅kn茅v 茅s 10% ige, 茅s az egyes verzi贸k k枚z枚tti k眉l枚nbs茅g pontosan a sz贸faji gyakori esetek kezel茅s茅n illetve nem kezel茅s茅n alapszik (Tikk, 2007), teh谩t egy kevesebb f艖nevet tartalmaz贸 korpuszon elt茅r艖 eredm茅nyek sz眉lethetnek a legjobb verzi贸 meg谩llap铆t谩sa sor谩n.
#21: Sz贸t枚vez艖 j贸s谩ga: Alult枚vez茅s T煤lt枚vez茅s TM feladat pontoss谩g javul谩sa
#22: A v茅lem茅nyelemz茅s a term茅szetes nyelvfeldolgoz谩s (NLP)[1] r茅szter眉lete, de rendk铆v眉l neh茅z feladat, t枚bb fontos szempontot, illetve neh茅zs茅get is kezelni kell egy v茅lem茅nyelemz茅si megold谩s tervez茅sekor. Liu (2011) kiemeli, hogy a v茅lem茅nyelemz茅si probl茅ma defini谩l谩sakor k茅t alapfeladat van: Meghat谩rozni, hogy mi sz谩m铆t v茅lem茅nynek : hogyan k眉l枚n铆tj眉k el az objekt铆v negat铆v t枚rt茅n茅seket a szubjekt铆v v茅lem茅nynyilv谩n铆t谩sokt贸l, illetve egy谩ltal谩n elk眉l枚n铆tj眉k-e. Ha az elemz茅s mondat szinten t枚rt茅nik, akkor jellemz艖en egy fel眉gyelt tan铆t谩ssal tan铆tott modell (naiv Bayes vagy SVM algoritmust haszn谩lva) seg铆ts茅g茅vel el艖bb oszt谩lyozz谩k a mondatokat aszerint, hogy objekt铆v vagy szubjekt铆v mondatokr贸l van-e sz贸, 茅s csak a szubjekt铆v mondatok polarit谩s谩t vizsg谩lj谩k. 脰sszefoglalni a v茅lem茅nyeket : a v茅lem茅nyelemz茅s akkor j贸, ha siker眉l rengeteg v茅lem茅ny gy疟jteni 茅s elemezni. Azonban a ki茅rt茅kel茅sn茅l, 茅s az eredm茅nyek 枚sszefoglal谩s谩n谩l fontos feladat a v茅lem茅nyek 鈥� jellemz艖en kvantitat铆v - t枚m枚r铆t茅se, hogy az eredm茅nyek felhaszn谩lhat贸ak 茅s 茅rtelmezhet艖ek legyenek. [1] Natural Language Processing
#23: Meghat谩rozni, hogy mi sz谩m铆t v茅lem茅nynek 脰sszefoglalni a v茅lem茅nyeket
#24: A v茅lem茅nyelemz茅s sor谩n a dokumentum feldarabol谩sa kisebb egys茅gekre elt茅r艖 eredm茅nyekhez vezethet. A kisebb egys茅gekben k枚nnyebben meghat谩rozhat贸, hogy egy direkt v茅lem茅ny a kutat谩s t谩rgy谩ra vonatkozik-e vagy sem. Azonban az egyes sz枚vegegys茅gek k枚z枚tti n茅vm谩si 茅s egy茅b hivatkoz谩sok, illetve utal谩sok j贸val nehezebben dolgozhat贸ak fel. A kisebb egys茅gek aggreg谩lt 茅rt茅kei adj谩k a nagyobb egys茅gek polarit谩s谩t.
#25: V茅lem茅nyek azonos铆t谩sa sor谩n azt is meg kell hat谩rozni a lehet艖 legpontosabban, hogy mire vonatkozik a v茅lem茅ny. Liu (2011) kiemeli az attrib煤tum (aspektus) alap煤 v茅lem茅nyelemz茅st, melynek l茅nyege, hogy nem csak c茅lobjektum eg茅sz茅re vizsg谩ljuk az 茅rt茅kel茅seket, hanem annak bizonyos r茅szegys茅geire, jellemz艖ire is. Az aspektusokra lehet egyszer疟 egyszint疟 hierarchikus lebont谩s, de sz眉ks茅g eset茅n lehet eg茅szen komplex t枚bbszint疟 taxon贸mia vagy objektum modell is. Liu (2011) javaslata alapj谩n 枚k枚lszab谩lyk茅nt haszn谩lhat贸, hogy a v茅lem茅ny kifejez茅shez legk枚zelebb es艖 f艖n茅vre vonatkozik a v茅lem茅ny. A v茅lem茅ny t谩rgy谩nak felismer茅s茅t nehez铆ti, hogy az aspektusok (p茅ld谩ul 谩r) lehetnek explicite megeml铆tve a sz枚vegben: t煤l magas az 谩ra, de lehetnek implicit m贸don is: t煤l dr谩ga. A c茅l entit谩s felismer茅sekor teh谩t nem mindegy, hogy a teljes objektumra vonatkozik a v茅lem茅ny vagy annak egy aspektus谩ra, valamint, hogy az egyes aspektus v茅lem茅nyeket hogyan aggreg谩ljuk a teljes objektumr贸l sz贸l贸 v茅lem茅nyek/polarit谩s meghat谩roz谩s谩hoz. Ide谩lis esetben egy a v茅lem茅nyelemz艖 kezeli a c茅l entit谩s illetve az aspektusok szinonim谩it, az esetleges homonim谩kat, a n茅vm谩si hivatkoz谩sokat 茅s a gyakori el铆r谩sokat.
#26: Liu (2011) r谩vil谩g铆t arra is, hogy egy谩ltal谩n nem mindegy egy adott v茅lem茅ny ki茅rt茅kel茅s茅n茅l, hogy kinek a szempontj谩b贸l v茅gezz眉k az elemz茅st. A 鈥濭oogle r茅szv茅nyek 谩ra sz谩rnyal ma鈥� mondat p茅ld谩ul igen pozit铆v annak, aki rendelkezik Google r茅szv茅nyekkel, de p茅ld谩ul kifejezetten rossz h铆r annak, aki pont el艖z艖 nap adta el a Google pap铆rjait. A jelenlegi kutat谩sok vagy meghat谩roznak egy jellemz艖谩ltal谩nos n茅z艖pontot, vagy figyelmen k铆v眉l hagyj谩k a probl茅m谩t.
#27: A n茅z艖pont mellett l茅nyeges kih铆v谩s az egyes szakter眉letek speci谩lis nyelvezet茅nek kezel茅se. A k茅t probl茅ma k枚z枚tt sokszor nem is lehet k眉l枚nbs茅get tenni. El艖fordulhatnak olyan kifejez茅sek a vizsg谩lt sz枚vegekben, melyek egy 谩ltal谩nos v茅lem茅nyelemz茅s sor谩n nem rendelkeznek polarit谩ssal, de a szakter眉leti v茅lem茅nyelemz茅s sor谩n, a szaknyelv miatt m谩r er艖sen pozit铆v vagy negat铆v jelent茅s眉k van. Ezek kiemelt kezel茅s茅re sz贸t谩ralap煤 m贸dszerekn茅l van sz眉ks茅g, amikor az el艖re kialak铆tott v茅lem茅ny sz贸t谩rat m贸dos铆tani vagy b艖v铆teni kell.
#28: Az egyes v茅lem茅nym茅r茅si algoritmusok bemutat谩s谩n谩l nem t茅rek ki k眉l枚n a sz枚veges el艖feldolgoz谩si l茅p茅sekre. Ezek 谩ltal谩nos bemutat谩sa jelen fejezet c茅lja. Egy sz枚veggy疟jtem茅nyre vonatkoz贸 el艖feldolgoz谩s jellemz艖en a k枚vetkez艖 l茅p茅seket illetve d枚nt茅seket foglalja mag谩ban: Dokumentum beolvas谩sa: a dokumentum beolvas谩sa mind egyedi fejleszt茅s疟, mind ismert sz枚vegb谩ny谩szati megold谩ssal fontos feladat, mivel a sz枚veges dokumentumok t枚bbf茅le forr谩sb贸l sz谩rmazhatnak: weboldal, adatb谩zis, xls f谩jl, txt f谩jl, doc f谩jl, xml f谩jl, JSON f谩jl, stb. Speci谩lis karakterk贸dol谩sok kezel茅se : HTML escape karakterek dek贸dol谩sa, magyar sz枚vegekn茅l UTF-8, Latin2 karakterk贸dol谩s haszn谩lata, sz眉ks茅g eset茅n konverzi贸 vagy karaktercsere alkalmazhat贸. Dokumentum feldarabol谩s: bizonyos elemz茅sek illetve dokumentumok eset茅n sz眉ks茅g lehet arra, hogy a beolvasott dokumentumot sz茅tv谩gjuk kisebb sz枚vegegys茅gekre. P茅ld谩ul k眉l枚n kezelj眉k egy cikk fejezeteit, vagy egy sz枚vegnek a mondatati k茅pezik az elemz茅s alapj谩t (l谩sd: 10. 谩bra). Stopszavak kisz疟r茅se : amennyiben olyan elemz茅st v茅gz眉nk, amely b谩rmilyen szinten 茅p铆t tokenek gyakoris谩g谩ra, akkor 茅rdemes az adott nyelv jelent茅s t枚bblettel nem b铆r贸, de gyakori szavait kisz疟rni. Ilyen lehet p茅ld谩ul a n茅vel艖k vagy a l茅tig茅k kisz疟r茅se magyar nyelv疟 sz枚vegek eset茅n. A sz眉ks茅ges stopsz贸 lista 枚ssze谩ll铆t谩sa feladatf眉gg艖, de a weben hozz谩f茅rhet艖ek az egyes nyelvek aj谩nlott stopsz贸list谩i, melyet sz眉ks茅g m贸dos铆thatunk az elemz茅si specifikumainknak megfelel艖en. T枚bbf茅le 铆r谩sm贸d egy茅rtelm疟s铆t茅se: ha egyes szavaknak t枚bbf茅le 铆r谩sm贸dja haszn谩latos (ak谩r gyakori helyes铆r谩si, elg茅pel茅se hib谩k miatt), akkor azokat k枚z枚s alakra kell hozni: p茅ld谩ul e-mail 茅s email szavak azonos alakra hoz谩sa. Szavak kisbet疟ss茅 alak铆t谩sa A szavak sz贸t枚vez茅se a megfelel艖 sz贸t枚vez茅si szinten (l谩sd: 5. fejezet) Dokumentum felbont谩sa karakter n-grammokra/szavakra/sz贸 n-grammokra : az egyes sz枚veges feldolgoz谩si algoritmusok m谩s-m谩s tokenfelbont谩sra 茅p眉lnek. A dokumentum tokeniz谩l谩s谩n谩l 茅rdemes figyelembe venni, hogy a tokenek sz谩ma megegyezik a dokumentum-token bin谩ris vektort茅rm谩trix egyik dimenzi贸j谩val, amely 铆gy rendk铆v眉l nagyra is megn艖het, mellyel egy眉tt n枚vekszik az elemz茅s sz谩m铆t谩si kapacit谩sa modellt艖l f眉gg艖en line谩ris, de ak谩r exponenci谩lis m茅rt茅kben. Vektort茅rmodell kialak铆t谩sa: nem k枚telez艖 el艖feldolgoz谩si l茅p茅s, de a legt枚bb sz枚vegelemz茅si algoritmus ezzel a korpusz reprezent谩ci贸s m贸dszerrel dolgozik. A korpusz dokumentumait egy token 茅s a dokumentum dimenzi贸kkal rendelkez艖 bin谩ris m谩trix-szal 谩br谩zoljuk, ahol a m谩trix 茅rt茅kei mutatj谩k, hogy adott token adott dokumentumban milyen gyakran szerepel.
#30: V茅lem茅nyoszt谩lyoz谩s legk枚zelebbi szomsz茅d m贸dszerrel A k legk枚zelebbi szomsz茅d m贸dszer[1] l茅nyege, hogy a kategoriz谩land贸 sz枚veghez legk枚zelebb es艖 sz枚vegek kateg贸ri谩i alapj谩n hat谩rozzuk meg a c茅lsz枚veg kateg贸ri谩j谩t. (Tikk, 2007). A d枚nt茅sn茅l k sz谩m煤 legink谩bb hasonl贸 dokumentum c铆mk茅je alapj谩n kell d枚nteni, a legt枚bbsz枚r szerepl艖 c铆mk茅t kapja a dokumentum (egyszer疟 t枚bbs茅gi szavaz谩s). A hasonl贸s谩g a vektort茅rmodell 茅rt茅kei k枚z枚tti k眉l枚nb枚z艖 t谩vols谩g metrik谩k (p茅ld谩ul koszinusz-t谩vols谩g) alapj谩n kalkul谩lhat贸. Tikk (2007) eml铆ti, hogy k 茅rt茅k茅t jellemz艖en p谩ratlannak v谩lasztj谩k, 茅s a valid谩ci贸s adatok tapasztalatai alapj谩n hat谩rozz谩k meg. Egyes kutat谩sok 30-45, m铆g m谩sok 3-5 k枚z枚tti k 茅rt茅ket javasolnak. A m贸dszer legf艖bb h谩tr谩nya a magas, val贸s idej疟 sz谩m铆t谩si ig茅ny. V茅lem茅nym茅r茅s Szupportvektor-g茅ppel A Szupportvektor-g茅pek[2] igen hat茅kony oszt谩lyoz贸k. Az algoritmus olyan hipers铆kokat 谩llap铆t meg, melyek elv谩gj谩k a k眉l枚nb枚z艖 oszt谩lyok ment茅n a tan铆t贸 adathalmaz pontjait (a vektort茅rmodell k眉l枚nb枚z艖 sz枚vegeit). A v谩g贸 hipers铆kot 煤gy hat谩rozz谩k meg, hogy az a lehet艖 legt谩volabb legyen a k枚zeli pontokt贸l, teh谩t a lehet艖 legjobb v谩g谩s legyen a tan铆t贸 adathalmazon lehets茅ges alkalmas v谩g谩sok k枚z眉l. Tikk (2007) kiemeli, hogy az SVM algoritmusok er艖ss茅ge abban rejlik, hogy a szepar谩l贸 hipers铆kok a lehet艖 legjobban oszt谩lyozz谩k a bizonytalan, teh谩t a szepar谩l贸 s铆khoz k枚zel es艖 pontokat a fenti optimaliz谩l谩s miatt. A m贸dszer az egyik leghat茅konyabb sz枚vegoszt谩lyoz谩si tanul贸 algoritmus. J贸l sk谩l谩zhat贸, nem 茅rz茅keny a rendk铆v眉l magas dimenzi贸sz谩mra (tokensz谩mra). Nincs sz眉ks茅g valid谩ci贸ra, mert eleve az optim谩lis v谩g贸 s铆kot alkalmazz, 茅s a tan铆t贸adatok alapj谩n adhat贸 egy elm茅leti fels艖 hibakorl谩t a k茅s艖bbi, ismeretlen adatokon t枚rt茅n艖 oszt谩lyoz谩sra. (Tikk, 2007) [1] K-NN, k Nearest Neighbour [2] SVM, Support Vector Machine
#31: A megold谩s hasonl铆t a naiv-Bayes algoritmusra. A l茅nyege, hogy az elemezend艖 dokumentumgy疟jtem茅nyt megfelel艖en reprezent谩l贸 mint谩t (tan铆t贸 sz枚vegeket) annot谩ljuk, azaz ell谩tjuk a pozit铆v, negat铆v 茅s semleges c铆mk茅k valamelyik茅vel. A dokumentumokat felbontjuk tokenekre 茅s megvizsg谩ljuk, hogy az egyes tokenek milyen gyakran fordulnak pozit铆v illetve negat铆v c铆mk茅j疟 dokumentumokban. Az el艖fordul谩s alapj谩n a tokenekhez pozit铆v illetve negat铆v pontsz谩mokat rendel眉nk. A pontsz谩m lehet maga a gyakoris谩g vagy a gyakoris谩g alapj谩n kalkul谩lt 茅rt茅k, p茅ld谩ul a gyakoris谩g normaliz谩lt 茅rt茅ke vagy az egyes 茅rt茅kek besorol谩sa kateg贸ri谩kba. Az el艖谩llt token scoring rendszer (token-pontsz谩m sz贸t谩r) alapj谩n pozit铆v 茅s negat铆v pontsz谩m sz谩m铆that贸 tov谩bbi dokumentumokra, 茅s eld枚nthet艖, hogy az adott sz枚veg pozit铆v, negat铆v vagy semleges polarit谩s煤. A modell t枚bb szempontb贸l is tov谩bb finom铆that贸: Az elemz茅s egys茅ge: a dokumentum felbonthat贸 kisebb egys茅gekre, p茅ld谩ul fejezetekre, mondatokra, melyek polarit谩s谩nak valamilyen m贸d煤 aggreg谩l谩sa adja a dokumentum polarit谩s谩t. A polarit谩s kateg贸ri谩k b艖v铆t茅se : a pozit铆v-negat铆v-semleges h谩rmas sk谩la helyett r茅szletesebb sk谩la is haszn谩lhat贸. Vagy pedig a pozit铆v 茅s negat铆v kateg贸ri谩kon bel眉l 煤jabb szinteket (p茅ld谩ul: enyh茅n pozit铆v, k枚zepesen pozit铆v, er艖sen pozit铆v) defini谩lhatunk, mely esetben k茅tszint疟 oszt谩lyoz谩st alkalmazhatunk. A pontsz谩m kalkul谩ci贸 alapja: a token egyszer疟 el艖fordul谩sa helyett figyelembe vehetj眉k, hogy milyen m谩s tokenekkel fordul egy眉tt el艖 az adott token, vagy p茅ld谩ul h谩nyszor fordul el艖 m谩s kateg贸ri谩kban, mennyire megk眉l枚nb枚ztet艖 erej疟 a token. A modell granularit谩s谩nak meghat谩roz谩ssa a modellez艖 feladata, f眉gg az elemz茅s c茅lj谩t贸l 茅s a rendelkez茅sre 谩ll贸 tan铆t贸halmaz tulajdons谩gait贸l is.
#32: A d枚nt茅si f谩k sz枚vegoszt谩lyoz谩shoz, 茅s ez alapj谩n v茅lem茅nym茅r茅shez is haszn谩lhat贸ak. A d枚nt茅si f谩k vektort茅rmodell alapj谩n gener谩lhat贸ak. A fa csom贸pontjaiban a tokenek mint attrib煤tumok tal谩lhat贸ak, m铆g az 谩gak felt茅teleket jelentenek az adott tokenre vonatkoz贸an. Ez a felt茅tel lehet egy egyszer疟 szerepel-e a token a dokumentumban felt茅tel, de lehet az el艖fordul谩sok sz谩m谩ra vonatkoz贸 k眉sz枚b茅rt茅k vagy 茅rt茅kintervallum is. A d枚nt茅si fa leveleiben a pozit铆v, negat铆v illetve semleges c铆mk茅k tal谩lhat贸ak. Tikk (2007) szerint a sz枚vegoszt谩lyoz谩shoz a tipikus d枚nt茅si fa tan铆t贸algoritmusokat haszn谩lj谩k: ID3 C4.5 C5.0 CART CHAID A d枚nt茅si f谩k nagy el艖nye, hogy az ember sz谩m谩ra k枚nnyen 茅rtelmezhet艖 eredm茅nyt ny煤jt, 茅s a fa egyszer疟en alak铆that贸 ha-akkor szab谩lyhalmazz谩. A d枚nt茅si f谩k alkalmaz谩sa akkor aj谩nlott, amikor el艖rel谩that贸an viszonylag kev茅s, de nagy megk眉l枚nb枚ztet艖 erej疟 token seg铆ts茅g茅vel megoldhat贸 az oszt谩lyba sorol谩s, ugyanakkor emiatt a tulajdons谩ga miatt gyakran el艖fordul t煤ltanul谩s, azaz a kapott modell a tan铆t贸adatokra j贸 eredm茅nyt ad, de 煤j dokumentumok oszt谩lyoz谩sa eset茅n gyenge.
#33: pontonk茅nti k枚lcs枚n枚s inform谩ci贸 sz谩m铆t谩s谩val PMI: azaz a 茅s b egy眉ttel艖fordul谩si val贸sz铆n疟s茅g茅t el kell osztani a el艖fordul谩si 茅s b el艖fordul谩si val贸sz铆n疟s茅g茅vel
#34: Szemantikus v茅lem茅nyorient谩ci贸 meg谩llap铆t谩sa PMI m贸dszerrel A m贸dszer akkor alkalmazhat贸, ha egyszerre t枚bb dokumentumot kell elemezni. Ekkor az algoritmus a v茅lem茅nysz贸t谩rakban nem szerepl艖, ismeretlen szavakhoz (tokenekhez) pontsz谩mot rendel a vel眉k egy眉tt gyakran el艖fordul贸 sz贸t谩ri tokenek pontsz谩mainak k枚z茅p茅rt茅ke alapj谩n. A sz贸t谩rakban nem szerepl艖 tokenek 茅s a sz贸t谩ri tokenek k枚z枚tt a pontonk茅nti k枚lcs枚n枚s inform谩ci贸 sz谩m铆t谩s谩val (PMI)[1] meghat谩rozhat贸, hogy mely sz贸t谩ri elemekkel fordulnak gyakran el艖 egy dokumentumban az ismeretlen tokenek. A gyakran kapcsol贸d贸 tokenek pontsz谩mainak PMI 茅rt茅k alap煤 s煤lyoz谩s谩val pedig becs眉lhet艖 az ismeretlen alak pontsz谩ma. Ezzel a m贸dszerrel ak谩r egy teljesen adapt铆v megold谩s is 茅p铆thet艖, amennyiben az 煤j tokeneket 茅s a becs眉lt pontsz谩mokat a rendszer ezut谩n elmenti a sz贸t谩r谩ba. A PMI 茅rt茅k a vizsg谩lt dokumentumhalmaz tokenel艖fordul谩sai alapj谩n sz谩m铆that贸 a k枚vetkez艖 m贸don: , azaz a 茅s b egy眉ttel艖fordul谩si val贸sz铆n疟s茅g茅t el kell osztani a el艖fordul谩si 茅s b el艖fordul谩si val贸sz铆n疟s茅g茅vel. Szemantikus v茅lem茅nyorient谩ci贸 meg谩llap铆t谩sa szinonima sz贸t谩rral Az ismeretlen tokenek polarit谩sa m谩s m贸don is becs眉lhet艖. Egyes m贸dszerek kieg茅sz铆t艖 szinonimasz贸t谩rokat alkalmaznak a sz贸token alap煤 pontsz谩m sz贸t谩raik mell茅. 脥gy a pontsz谩m sz贸t谩rban nem szerepl艖 szavak pontsz谩ma becs眉lhet艖 azon szinonim谩inak pontsz谩mai alapj谩n, melyek szerepelnek a sz贸t谩rban. [1] Pointwise Mutual Information
#36: Smiley-k k茅rd茅sek

狠狠撸

Neticle bce om_preso_20121113

Recommended

More Related Content

Similar to Neticle bce om_preso_20121113 (20)

Recently uploaded (12)

Neticle bce om_preso_20121113

Editor's Notes