際際滷

際際滷Share a Scribd company logo
Neticle Technologies


         Automatikus v辿lem辿nyelemz辿s

                                Szekeres P辿ter, vezet kutat坦
                                   peter.szekeres@neticle.hu
                                         tel.: +36 70 7016488
                                             www.neticle.hu



Budapest, 2012.11.13.                               www.neticle.hu
A v辿lem辿nyelemz辿s vagy sentiment analysis
                  c辿lja olyan algoritmusok kialak鱈t叩sa, melyek
                  sz叩mszer撤s鱈tik k端l旦nb旦z sz旦vegek
                  v辿lem辿nypolarit叩s叩t valamilyen pozit鱈v-negat鱈v
                  sk叩l叩n.




Budapest, 2012.11.13.                                              www.neticle.hu
A v辿lem辿nyelemz辿s sz叩m鱈t叩studom叩nyb坦l
                   menedzsment eszk旦zz辿 ntte ki mag叩t.
                                                           (Liu, 2011)




Budapest, 2012.11.13.                                                    www.neticle.hu
Mire lehet haszn叩lni?


                        sszehasonl鱈t叩s versenyt叩rsakkal
                        Kamp叩nyok, esem辿nyek hat叩sainak vizsg叩lata
                        Automatikus 辿rtes鱈t辿sek (ersen negat鱈v tartalmak eset辿n)
                        F ellenz 辿s f t叩mogat坦 felhaszn叩l坦k azonos鱈t叩sa
                        F ellenz 辿s f t叩mogat坦 weboldalak
                        Ad-hoc elemz辿sek v辿grehajt叩sa




Budapest, 2012.11.13.                                                        www.neticle.hu
WebLib
            Neticle




                             Magyar szereplk

                                                MorphoLogic

                        OpinHu




Budapest, 2012.11.13.                                    www.neticle.hu
Radian6




Budapest, 2012.11.13.   www.neticle.hu
Text mining

              Data mining


                                       NLP
                   Machine learning




Budapest, 2012.11.13.                         www.neticle.hu
Magyar nyelv撤 sz旦vegek
   automatikus feldolgoz叩s叩nak
   neh辿zs辿gei
Budapest, 2012.11.13.            www.neticle.hu
雨岳坦姻温乙看噛叩壊                              sisak, reggel, folyamod




           Tikk (2007) szerint egy fn辿vnek ak叩r 1400, mell辿kn辿vnek ak叩r 2700
           alakja lehet




Budapest, 2012.11.13.                                                      www.neticle.hu
Hunglish kifejez辿sek

                        j炭zerrel, l叩jkol, szisztem, deployol




Budapest, 2012.11.13.                                          www.neticle.hu
Szleng 辿s webes szleng


                        lol, lolz, omg, sz@r, f@ck u, mind1, h, zomg




Budapest, 2012.11.13.                                                  www.neticle.hu
Tagad坦szavakkal 辿s tilt坦szavakkal (p辿ld叩ul: sem,
                        nem, se, ne, se nem, sincs, nincs, sincsen,
                        nincsen),




          Tagad叩s
                        Foszt坦k辿pzk (p辿ld叩ul: -atlan, -etlen, -mentes)




Budapest, 2012.11.13.                                               www.neticle.hu
Beviteli eszk旦z miatti saj叩toss叩gok



             Karakterk坦dol叩si neh辿zs辿gek


Budapest, 2012.11.13.                      www.neticle.hu
Sz坦t旦vez辿s vs. lemmatiz叩l叩s
Budapest, 2012.11.13.              www.neticle.hu
Szint        Lev叩gand坦                            P辿lda


            Nincs           -
    0.
               lev叩g叩s
    1.      Ragok           T旦bbes sz叩m els szem辿ly ragja: Fizet端nk -> Fizet
            Ragok 辿s            T旦bbes sz叩m els szem辿ly ragja: Fizet端nk -> Fizet
    2.        jelek             T旦bbes sz叩m els szem辿ly ragja + m炭lt id jele:
                                 Fizett端nk -> Fizet
            Ragok, jelek        T旦bbes sz叩m els szem辿ly ragja: Fizet端nk -> Fizet
              辿s k辿pzk         T旦bbes sz叩m els szem辿ly ragja + m炭lt id jele:
    3.
                                 Fizett端nk -> Fizet
                                Igen辿vi k辿pz: Fizetend -> Fizet
            Ragok,              T旦bbes sz叩m els szem辿ly ragja: Fizet端nk -> Fizet
              jelek,            T旦bbes sz叩m els szem辿ly ragja + m炭lt id jele:
    4.        k辿pzk 辿s          Fizett端nk-> Fizet
              igek旦tk          Igen辿vi k辿pz: Fizetend -> Fizet
                                Igek旦t: Megfizet -> Fizet



Budapest, 2012.11.13.                                                     www.neticle.hu
Algoritmikus, nyelvspecifikus transzform叩ci坦s szab叩lyok




                        Sz坦t旦vez辿si m坦dszerek



                           Szavakat 辿s sz坦t旦veiket alkalmaz坦 sz坦t叩rak alkalmaz叩sa




Budapest, 2012.11.13.                                                      www.neticle.hu
Sz坦t叩r alap炭 sz坦t旦vez辿s     Szab叩ly alap炭 sz坦t旦vez辿s



                        Lass炭                       Gyors
  Teljes鱈tm辿ny

                        Elm辿letileg 100%-os         Kiv辿telsz坦t叩r bevezet辿s辿vel
  Pontoss叩g                pontoss叩got is el辿rhet       meglehetsen pontos

                        Csak azokra sz坦alakokra     j szavak eset辿n el辿g csak a
                           m撤k旦dik, amelyek             kiv辿telsz坦t叩rakat bv鱈teni,
  Sk叩l叩zhat坦s叩g
                           szerepelnek a                azt is csak sz端ks辿g eset辿n
                           sz坦t叩rakban.
  Kiv辿teles,              Kiv辿telek, rendhagy坦         Kiv辿telek neh辿zkes
     rendhagy坦             esetek hat辿kony              kezel辿se
     esetek                kezel辿se                    Kiv辿tel sz坦t叩rak
     kezel辿se                                           bevezet辿s辿vel t旦rt辿nik
                          Nyelvf端ggetlen megold叩s   Nyelvf端gg megold叩s, jelents
  Nyelvf端ggs辿g                                        nyelvspecifikus
                                                       ismereteket ig辿nyel

  Bv鱈thets辿g,         Egyszer撤 bv鱈thets辿g       Neh辿zkes bv鱈thets辿g
     fejleszthets
     辿g

                          F叩rads叩gos sz坦t叩r辿p鱈t辿s   Bonyolult szab叩lyrendszer
  Megval坦s鱈t叩s
                          Folyamatos karbantart叩s      辿p鱈t辿s


Budapest, 2012.11.13.                                                                 www.neticle.hu
HunStem
                                         P辿ld叩k
                                         magyar nyelv撤
                    Tordai Anna          sz坦t旦vez辿sre


                   Neticle sz坦t旦vezje




Budapest, 2012.11.13.                              www.neticle.hu
Budapest, 2012.11.13.   www.neticle.hu
Raglev叩g坦 pontoss叩g叩nak alakul叩sa


            100%

             90%

             80%

             70%

             60%

             50%                                      Raglev叩g坦
                                                     pontoss叩ga
             40%                                 叩tlagosan: 89,67%
             30%

             20%

             10%

              0%
                   1    1203 2405 3607 4809 6011 7213 8415 9617 10819 12021 13223 14425 15627
                                                     Sz坦sz叩m




Budapest, 2012.11.13.                                                                       www.neticle.hu
閣辿鉛艶馨辿稼霞艶鉛艶馨噛辿壊庄 kih鱈v叩sok


Budapest, 2012.11.13.             www.neticle.hu
意辿稼霞艶噛                   Le鱈r叩s              Sz旦vegb叩ny叩s        Feladat
                                                            zati           neh辿zs辿
                                                          feladat             ge

    C辿l entit叩s         Amire a v辿lem辿ny              N辿velem           Neh辿z
                           vonatkozik, p辿ld叩ul:          azonos鱈t叩s
                           iPhone
    Aspektus,           A c辿l entit叩s tulajdons叩ga    Inform叩ci坦kinye   Neh辿z
       attrib炭tum           vagy r辿szeleme, amire a       r辿s
                            v辿lem辿ny vonatkozik.
    V辿lem辿ny            Maga a - t旦bbnyire            V辿lem辿nykinyer    K旦nny撤
                           szubjekt鱈v - v辿lem辿ny          辿s

    Forr叩s              Az a szem辿ly (felhaszn叩l坦)    Inform叩ci坦kinye   Neh辿z
                            aki megfogalmazta a           r辿si 辿s
                            v辿lem辿nyt                     n辿velem
                                                          azonos鱈t叩si
                                                          feladat



    Id                 A v辿lem辿ny                    Inform叩ci坦kinye   Neh辿z
                           megjelen辿s辿nek/keletkez        r辿si 辿s
                           辿s辿nek ideje                   n辿velem
                                                          azonos鱈t叩si
                                                          feladat



Budapest, 2012.11.13.                                                                www.neticle.hu
A megfelel sz旦vegegys辿g meghat叩roz叩sa




Budapest, 2012.11.13.                               www.neticle.hu
A c辿l entit叩s azonos鱈t叩sa




Budapest, 2012.11.13.             www.neticle.hu
鰻辿噛沿看稼岳看一



                        Google r辿szv辿nyek 叩ra sz叩rnyal ma




Budapest, 2012.11.13.                                         www.neticle.hu
Szakter端leti sz坦t叩rspecializ叩ci坦




Budapest, 2012.11.13.                             www.neticle.hu
Dokumentum beolvas叩sa
      Speci叩lis karakterk坦dol叩sok
      kezel辿se
      Dokumentum feldarabol叩s          Tipikus
      Stopszavak kisz撤r辿se             elfeldolgoz叩si
      T旦bbf辿le 鱈r叩sm坦d
      egy辿rtelm撤s鱈t辿se                 folyamat
      Szavak kisbet撤ss辿 alak鱈t叩sa
      A szavak sz坦t旦vez辿se
      Dokumentum felbont叩sa karakter
      n-grammokra/szavakra/sz坦 n-
      grammokra
      Vektort辿rmodell kialak鱈t叩sa




Budapest, 2012.11.13.                                www.neticle.hu
閣辿鉛艶馨辿稼霞艶鉛艶馨噛辿壊庄
     m坦dszerek


Budapest, 2012.11.13.   www.neticle.hu
Fel端gyelt g辿pi tanul叩ssal
          megval坦s鱈tott
          v辿lem辿nym辿r辿si m坦dszerek

                         Legk旦zelebb szomsz辿d
                         m坦dszer


                   SVM              naiv Bayes




Budapest, 2012.11.13.                            www.neticle.hu
K辿tszint撤 oszt叩lyoz叩s 辿s tan鱈t坦halmaz alapj叩n
    scoring rendszer kialak鱈t叩sa




Budapest, 2012.11.13.                               www.neticle.hu
V辿lem辿nym辿r辿s d旦nt辿si f叩kkal




Budapest, 2012.11.13.                        www.neticle.hu
Szemantikus v辿lem辿nyorient叩ci坦
                         meg叩llap鱈t叩sa PMI m坦dszerrel




      Fel端gyeletlen g辿pi tanul叩ssal megval坦s鱈tott
      v辿lem辿nym辿r辿s



                        Szemantikus v辿lem辿nyorient叩ci坦 meg叩llap鱈t叩sa
                        szinonima sz坦t叩rra




Budapest, 2012.11.13.                                              www.neticle.hu
G辿pi tanul叩s n辿lk端li
      m坦dszerek




Budapest, 2012.11.13.        www.neticle.hu
V辿lem辿nysz坦 sz坦t叩r

                  V辿lem辿ny kifejez辿s sz坦t叩r

                  V辿lem辿nyerss辿g sz坦t叩r

                  V辿lem辿nym坦dos鱈t坦 sz坦t叩r




                           A Neticle sz坦t叩r alap炭 m坦dszere



Budapest, 2012.11.13.                                        www.neticle.hu
Budapest, 2012.11.13.   www.neticle.hu
Budapest, 2012.11.13.   www.neticle.hu
Budapest, 2012.11.13.   www.neticle.hu
Budapest, 2012.11.13.   www.neticle.hu
Ki                     Hogyan                   Nyelv   Accuracy

                        SVM algoritmussal unigrammok
                           felhaszn叩l叩s叩val IMDB
                           weboldal filmkritik叩inak
    Pang et al (2002)      elemz辿se                          angol       82,90%

                        Szubjektivit叩s oszt叩lyoz叩ssal majd
                           Naiv Bayes m坦dszerrel
                           megval坦s鱈tott hierarchikus
                           oszt叩lyoz叩ssal IMDB weboldal
    Pang et al (2004)      filmkritik叩inak elemz辿se          angol       86,40%


    Hatzivassiloglu     Sz坦t叩r alap炭 m坦dszerrel a
       辿s                   sz旦vegekben l辿v mell辿knevek
    McKeown                 orient叩ci坦ja alapj叩n becs端lt辿k
    (Szaszk坦 et al,         meg dokumentumok
    2009 alapj叩n)           orient叩ci坦j叩t                    angol          78%



                        Sz坦t叩r alap炭 m坦dszerrel
                            weboldalak sz旦veg辿nek
    Neticle                 v辿lem辿nyelemz辿se                 magyar      80,48%



Budapest, 2012.11.13.                                                             www.neticle.hu
Ki                         Hogyan                     Nyelv   Accuracy

                             C4.5 d旦nt辿si fa algoritmussal
                                 kombin叩lt f坦rum v叩laszol叩si
                                 gr叩fmegold叩ssal
      Berend 辿s Farkas           n辿pszavaz叩sr坦l alkotott
          (2008)                 v辿lem辿nyek oszt叩lyoz叩sa             magyar       71,76%

                             240 magyar nyelv撤 filmkritika pozit鱈v
                                 negat鱈v oszt叩lyoz叩sa 炭n.
                                 robosztus kock叩zat
                                 minimaliz叩l叩s elven alapul坦
      Szaszk坦 et al (2009)       oszt叩lyoz叩ssal.                     magyar          76%



                             Ha minden mondatot, a
                                leggyakoribb, a semleges
      Baseline pontoss叩g        kateg坦ri叩ba sorolunk                 magyar       58,71%




                             Sz坦t叩r alap炭 m坦dszerrel weboldalak
      Neticle                    sz旦veg辿nek v辿lem辿nyelemz辿se         magyar       80,48%



Budapest, 2012.11.13.                                                                    www.neticle.hu
Budapest, 2012.11.13.   www.neticle.hu
rdekldknek aj叩nlott:

           Tikk, D. [2007]: Sz旦vegb叩ny叩szat, Typotex Elektronikus Kiad坦 Kft,
           Budapest
           Liu, B. [2011]: Sentiment Analysis Tutorial. AAAI-2011 Conference, San
           Francisco, USA. (let旦lthet:, utolj叩ra let旦ltve:
           http://www.cs.uic.edu/~liub/FBS/Sentiment-Analysis-tutorial-AAAI-2011.pdf
           , 2012. 叩prilis 19-辿n)
           Mih叩ltz M叩rton [2010]: OpinHu: online sz旦vegek t旦bbnyelv撤
           v辿lem辿nyelemz辿se, VII. Magyar Sz叩m鱈t坦g辿pes Nyelv辿szeti Konferencia
           Berend, G., Farkas, R. [2008]: Opinion Mining in Hungarian based on
           textual and graphical clues, in Proceedings of the 4th Intern. Symposium
           on Data Mining and Intelligent Information Processing, Santander, 2008.




Budapest, 2012.11.13.                                                          www.neticle.hu
Ad

Recommended

Neticle - A web叩ruh叩zak kritikus pontjai a webes v辿lem辿nyek alapj叩n
Neticle - A web叩ruh叩zak kritikus pontjai a webes v辿lem辿nyek alapj叩n
Szekeres P辿ter
Webes jelenl辿t elemz辿se a Neticle-lel
Webes jelenl辿t elemz辿se a Neticle-lel
Szekeres P辿ter
Lean Analytics for Startups and Enterprises
Lean Analytics for Startups and Enterprises
Lean Analytics
坦檎温厩叩噛鉛温岳
坦檎温厩叩噛鉛温岳
urzika
坦檎温厩叩噛鉛温岳
坦檎温厩叩噛鉛温岳
urzika
坦檎温厩叩噛鉛温岳
坦檎温厩叩噛鉛温岳
urzika
坦檎温厩叩噛鉛温岳
坦檎温厩叩噛鉛温岳
urzika
坦檎温厩叩噛鉛温岳
坦檎温厩叩噛鉛温岳
juhaszde
Digit weisdora
Digit weisdora
weisdora
Microsegment corpus 01.32 statistics
Microsegment corpus 01.32 statistics
Csaba Kiss
Neticle - A webes v辿lem辿nyelemz辿s lehets辿gei @conTTEXT 2013
Neticle - A webes v辿lem辿nyelemz辿s lehets辿gei @conTTEXT 2013
Szekeres P辿ter
坦檎温厩叩噛鉛温岳
坦檎温厩叩噛鉛温岳
szatmarimelinda
坦檎温厩叩噛鉛温岳
坦檎温厩叩噛鉛温岳
szatmarimelinda
際際滷share angol 坦rav叩zlat
際際滷share angol 坦rav叩zlat
Debreceni Adrian
Digit叩lis 坦rav叩zlat angol 坦r叩ra
Digit叩lis 坦rav叩zlat angol 坦r叩ra
mangohusi
Garajszki gy旦rgy t旦rt辿nelem
Garajszki gy旦rgy t旦rt辿nelem
bagcsika
Halozati oravazlat
Halozati oravazlat
L叩szl坦 Valcs叩k
坦檎温厩叩噛鉛温岳 hunyadi
坦檎温厩叩噛鉛温岳 hunyadi
Lajos Tar
Halozati oravazlat
Halozati oravazlat
L叩szl坦 Valcs叩k
Csekein辿 vag叩cs zsuzsa digit叩lis 坦rav叩zlat v辿gleges
Csekein辿 vag叩cs zsuzsa digit叩lis 坦rav叩zlat v辿gleges
vagacszs
用姻温厩叩噛鉛温岳
用姻温厩叩噛鉛温岳
vassne
撤Rlap 1
撤Rlap 1
HUFR2C
It3 4 2 4 2 1
It3 4 2 4 2 1
Project IT3
坦檎温厩叩噛鉛温岳 rajz 4.o.
坦檎温厩叩噛鉛温岳 rajz 4.o.
melinda65
Informatika 坦rav叩zlat Sz辿kely Gabriella
Informatika 坦rav叩zlat Sz辿kely Gabriella
Gabriella Sz辿kely
坦Raterv barn叩n辿 kiss 辿va - 11a - a mozg坦k辿pi sz旦vegek rendszerez辿se
坦Raterv barn叩n辿 kiss 辿va - 11a - a mozg坦k辿pi sz旦vegek rendszerez辿se
barnane
The Tools of Government: A Guide to the New Governance 1st Edition
The Tools of Government: A Guide to the New Governance 1st Edition
kaubxurs1992
Test Bank for International Human Resource Management, 7th Edition, Peter Dow...
Test Bank for International Human Resource Management, 7th Edition, Peter Dow...
jludsladl4344

More Related Content

Similar to Neticle bce om_preso_20121113 (20)

Digit weisdora
Digit weisdora
weisdora
Microsegment corpus 01.32 statistics
Microsegment corpus 01.32 statistics
Csaba Kiss
Neticle - A webes v辿lem辿nyelemz辿s lehets辿gei @conTTEXT 2013
Neticle - A webes v辿lem辿nyelemz辿s lehets辿gei @conTTEXT 2013
Szekeres P辿ter
坦檎温厩叩噛鉛温岳
坦檎温厩叩噛鉛温岳
szatmarimelinda
坦檎温厩叩噛鉛温岳
坦檎温厩叩噛鉛温岳
szatmarimelinda
際際滷share angol 坦rav叩zlat
際際滷share angol 坦rav叩zlat
Debreceni Adrian
Digit叩lis 坦rav叩zlat angol 坦r叩ra
Digit叩lis 坦rav叩zlat angol 坦r叩ra
mangohusi
Garajszki gy旦rgy t旦rt辿nelem
Garajszki gy旦rgy t旦rt辿nelem
bagcsika
Halozati oravazlat
Halozati oravazlat
L叩szl坦 Valcs叩k
坦檎温厩叩噛鉛温岳 hunyadi
坦檎温厩叩噛鉛温岳 hunyadi
Lajos Tar
Halozati oravazlat
Halozati oravazlat
L叩szl坦 Valcs叩k
Csekein辿 vag叩cs zsuzsa digit叩lis 坦rav叩zlat v辿gleges
Csekein辿 vag叩cs zsuzsa digit叩lis 坦rav叩zlat v辿gleges
vagacszs
用姻温厩叩噛鉛温岳
用姻温厩叩噛鉛温岳
vassne
撤Rlap 1
撤Rlap 1
HUFR2C
It3 4 2 4 2 1
It3 4 2 4 2 1
Project IT3
坦檎温厩叩噛鉛温岳 rajz 4.o.
坦檎温厩叩噛鉛温岳 rajz 4.o.
melinda65
Informatika 坦rav叩zlat Sz辿kely Gabriella
Informatika 坦rav叩zlat Sz辿kely Gabriella
Gabriella Sz辿kely
坦Raterv barn叩n辿 kiss 辿va - 11a - a mozg坦k辿pi sz旦vegek rendszerez辿se
坦Raterv barn叩n辿 kiss 辿va - 11a - a mozg坦k辿pi sz旦vegek rendszerez辿se
barnane
Digit weisdora
Digit weisdora
weisdora
Microsegment corpus 01.32 statistics
Microsegment corpus 01.32 statistics
Csaba Kiss
Neticle - A webes v辿lem辿nyelemz辿s lehets辿gei @conTTEXT 2013
Neticle - A webes v辿lem辿nyelemz辿s lehets辿gei @conTTEXT 2013
Szekeres P辿ter
坦檎温厩叩噛鉛温岳
坦檎温厩叩噛鉛温岳
szatmarimelinda
坦檎温厩叩噛鉛温岳
坦檎温厩叩噛鉛温岳
szatmarimelinda
際際滷share angol 坦rav叩zlat
際際滷share angol 坦rav叩zlat
Debreceni Adrian
Digit叩lis 坦rav叩zlat angol 坦r叩ra
Digit叩lis 坦rav叩zlat angol 坦r叩ra
mangohusi
Garajszki gy旦rgy t旦rt辿nelem
Garajszki gy旦rgy t旦rt辿nelem
bagcsika
坦檎温厩叩噛鉛温岳 hunyadi
坦檎温厩叩噛鉛温岳 hunyadi
Lajos Tar
Csekein辿 vag叩cs zsuzsa digit叩lis 坦rav叩zlat v辿gleges
Csekein辿 vag叩cs zsuzsa digit叩lis 坦rav叩zlat v辿gleges
vagacszs
用姻温厩叩噛鉛温岳
用姻温厩叩噛鉛温岳
vassne
撤Rlap 1
撤Rlap 1
HUFR2C
It3 4 2 4 2 1
It3 4 2 4 2 1
Project IT3
坦檎温厩叩噛鉛温岳 rajz 4.o.
坦檎温厩叩噛鉛温岳 rajz 4.o.
melinda65
Informatika 坦rav叩zlat Sz辿kely Gabriella
Informatika 坦rav叩zlat Sz辿kely Gabriella
Gabriella Sz辿kely
坦Raterv barn叩n辿 kiss 辿va - 11a - a mozg坦k辿pi sz旦vegek rendszerez辿se
坦Raterv barn叩n辿 kiss 辿va - 11a - a mozg坦k辿pi sz旦vegek rendszerez辿se
barnane

Recently uploaded (12)

The Tools of Government: A Guide to the New Governance 1st Edition
The Tools of Government: A Guide to the New Governance 1st Edition
kaubxurs1992
Test Bank for International Human Resource Management, 7th Edition, Peter Dow...
Test Bank for International Human Resource Management, 7th Edition, Peter Dow...
jludsladl4344
(eBook PDF) A Foundation in the Principles of Management First Edition by Dan...
(eBook PDF) A Foundation in the Principles of Management First Edition by Dan...
tjeyfelom9945
Leadership Experience 6th Edition Daft Solutions Manual
Leadership Experience 6th Edition Daft Solutions Manual
iptoudidz4824
Dynamic Physical Education For Secondary School Students 7th Edition Darst Te...
Dynamic Physical Education For Secondary School Students 7th Edition Darst Te...
lpzrvlk486
Solution Manual for Financial Reporting and Analysis, 8th Edition, Lawrence R...
Solution Manual for Financial Reporting and Analysis, 8th Edition, Lawrence R...
vulvdgop9164
Test Bank for Managing Organizational Behavior, 2nd Edition: Timothy Baldwin
Test Bank for Managing Organizational Behavior, 2nd Edition: Timothy Baldwin
cekxmus0952
Test Bank for Introduction to Communication Disorders, 6th Edition, Robert E....
Test Bank for Introduction to Communication Disorders, 6th Edition, Robert E....
jludsladl4344
Solution Manual for Accounting Information Systems, 10th Edition
Solution Manual for Accounting Information Systems, 10th Edition
imjmoyraf9440
Principles of Managerial Finance 14th Edition Gitman Test Bank
Principles of Managerial Finance 14th Edition Gitman Test Bank
axzhxew9885
Financial and Managerial Accounting The Basis for Business Decisions 18th Edi...
Financial and Managerial Accounting The Basis for Business Decisions 18th Edi...
jawrzehm5338
Successful Project Management 7th Edition Gido Test Bank
Successful Project Management 7th Edition Gido Test Bank
cezmbtdj268
The Tools of Government: A Guide to the New Governance 1st Edition
The Tools of Government: A Guide to the New Governance 1st Edition
kaubxurs1992
Test Bank for International Human Resource Management, 7th Edition, Peter Dow...
Test Bank for International Human Resource Management, 7th Edition, Peter Dow...
jludsladl4344
(eBook PDF) A Foundation in the Principles of Management First Edition by Dan...
(eBook PDF) A Foundation in the Principles of Management First Edition by Dan...
tjeyfelom9945
Leadership Experience 6th Edition Daft Solutions Manual
Leadership Experience 6th Edition Daft Solutions Manual
iptoudidz4824
Dynamic Physical Education For Secondary School Students 7th Edition Darst Te...
Dynamic Physical Education For Secondary School Students 7th Edition Darst Te...
lpzrvlk486
Solution Manual for Financial Reporting and Analysis, 8th Edition, Lawrence R...
Solution Manual for Financial Reporting and Analysis, 8th Edition, Lawrence R...
vulvdgop9164
Test Bank for Managing Organizational Behavior, 2nd Edition: Timothy Baldwin
Test Bank for Managing Organizational Behavior, 2nd Edition: Timothy Baldwin
cekxmus0952
Test Bank for Introduction to Communication Disorders, 6th Edition, Robert E....
Test Bank for Introduction to Communication Disorders, 6th Edition, Robert E....
jludsladl4344
Solution Manual for Accounting Information Systems, 10th Edition
Solution Manual for Accounting Information Systems, 10th Edition
imjmoyraf9440
Principles of Managerial Finance 14th Edition Gitman Test Bank
Principles of Managerial Finance 14th Edition Gitman Test Bank
axzhxew9885
Financial and Managerial Accounting The Basis for Business Decisions 18th Edi...
Financial and Managerial Accounting The Basis for Business Decisions 18th Edi...
jawrzehm5338
Successful Project Management 7th Edition Gido Test Bank
Successful Project Management 7th Edition Gido Test Bank
cezmbtdj268
Ad

Neticle bce om_preso_20121113

  • 1. Neticle Technologies Automatikus v辿lem辿nyelemz辿s Szekeres P辿ter, vezet kutat坦 peter.szekeres@neticle.hu tel.: +36 70 7016488 www.neticle.hu Budapest, 2012.11.13. www.neticle.hu
  • 2. A v辿lem辿nyelemz辿s vagy sentiment analysis c辿lja olyan algoritmusok kialak鱈t叩sa, melyek sz叩mszer撤s鱈tik k端l旦nb旦z sz旦vegek v辿lem辿nypolarit叩s叩t valamilyen pozit鱈v-negat鱈v sk叩l叩n. Budapest, 2012.11.13. www.neticle.hu
  • 3. A v辿lem辿nyelemz辿s sz叩m鱈t叩studom叩nyb坦l menedzsment eszk旦zz辿 ntte ki mag叩t. (Liu, 2011) Budapest, 2012.11.13. www.neticle.hu
  • 4. Mire lehet haszn叩lni? sszehasonl鱈t叩s versenyt叩rsakkal Kamp叩nyok, esem辿nyek hat叩sainak vizsg叩lata Automatikus 辿rtes鱈t辿sek (ersen negat鱈v tartalmak eset辿n) F ellenz 辿s f t叩mogat坦 felhaszn叩l坦k azonos鱈t叩sa F ellenz 辿s f t叩mogat坦 weboldalak Ad-hoc elemz辿sek v辿grehajt叩sa Budapest, 2012.11.13. www.neticle.hu
  • 5. WebLib Neticle Magyar szereplk MorphoLogic OpinHu Budapest, 2012.11.13. www.neticle.hu
  • 7. Text mining Data mining NLP Machine learning Budapest, 2012.11.13. www.neticle.hu
  • 8. Magyar nyelv撤 sz旦vegek automatikus feldolgoz叩s叩nak neh辿zs辿gei Budapest, 2012.11.13. www.neticle.hu
  • 9. 雨岳坦姻温乙看噛叩壊 sisak, reggel, folyamod Tikk (2007) szerint egy fn辿vnek ak叩r 1400, mell辿kn辿vnek ak叩r 2700 alakja lehet Budapest, 2012.11.13. www.neticle.hu
  • 10. Hunglish kifejez辿sek j炭zerrel, l叩jkol, szisztem, deployol Budapest, 2012.11.13. www.neticle.hu
  • 11. Szleng 辿s webes szleng lol, lolz, omg, sz@r, f@ck u, mind1, h, zomg Budapest, 2012.11.13. www.neticle.hu
  • 12. Tagad坦szavakkal 辿s tilt坦szavakkal (p辿ld叩ul: sem, nem, se, ne, se nem, sincs, nincs, sincsen, nincsen), Tagad叩s Foszt坦k辿pzk (p辿ld叩ul: -atlan, -etlen, -mentes) Budapest, 2012.11.13. www.neticle.hu
  • 13. Beviteli eszk旦z miatti saj叩toss叩gok Karakterk坦dol叩si neh辿zs辿gek Budapest, 2012.11.13. www.neticle.hu
  • 15. Szint Lev叩gand坦 P辿lda Nincs - 0. lev叩g叩s 1. Ragok T旦bbes sz叩m els szem辿ly ragja: Fizet端nk -> Fizet Ragok 辿s T旦bbes sz叩m els szem辿ly ragja: Fizet端nk -> Fizet 2. jelek T旦bbes sz叩m els szem辿ly ragja + m炭lt id jele: Fizett端nk -> Fizet Ragok, jelek T旦bbes sz叩m els szem辿ly ragja: Fizet端nk -> Fizet 辿s k辿pzk T旦bbes sz叩m els szem辿ly ragja + m炭lt id jele: 3. Fizett端nk -> Fizet Igen辿vi k辿pz: Fizetend -> Fizet Ragok, T旦bbes sz叩m els szem辿ly ragja: Fizet端nk -> Fizet jelek, T旦bbes sz叩m els szem辿ly ragja + m炭lt id jele: 4. k辿pzk 辿s Fizett端nk-> Fizet igek旦tk Igen辿vi k辿pz: Fizetend -> Fizet Igek旦t: Megfizet -> Fizet Budapest, 2012.11.13. www.neticle.hu
  • 16. Algoritmikus, nyelvspecifikus transzform叩ci坦s szab叩lyok Sz坦t旦vez辿si m坦dszerek Szavakat 辿s sz坦t旦veiket alkalmaz坦 sz坦t叩rak alkalmaz叩sa Budapest, 2012.11.13. www.neticle.hu
  • 17. Sz坦t叩r alap炭 sz坦t旦vez辿s Szab叩ly alap炭 sz坦t旦vez辿s Lass炭 Gyors Teljes鱈tm辿ny Elm辿letileg 100%-os Kiv辿telsz坦t叩r bevezet辿s辿vel Pontoss叩g pontoss叩got is el辿rhet meglehetsen pontos Csak azokra sz坦alakokra j szavak eset辿n el辿g csak a m撤k旦dik, amelyek kiv辿telsz坦t叩rakat bv鱈teni, Sk叩l叩zhat坦s叩g szerepelnek a azt is csak sz端ks辿g eset辿n sz坦t叩rakban. Kiv辿teles, Kiv辿telek, rendhagy坦 Kiv辿telek neh辿zkes rendhagy坦 esetek hat辿kony kezel辿se esetek kezel辿se Kiv辿tel sz坦t叩rak kezel辿se bevezet辿s辿vel t旦rt辿nik Nyelvf端ggetlen megold叩s Nyelvf端gg megold叩s, jelents Nyelvf端ggs辿g nyelvspecifikus ismereteket ig辿nyel Bv鱈thets辿g, Egyszer撤 bv鱈thets辿g Neh辿zkes bv鱈thets辿g fejleszthets 辿g F叩rads叩gos sz坦t叩r辿p鱈t辿s Bonyolult szab叩lyrendszer Megval坦s鱈t叩s Folyamatos karbantart叩s 辿p鱈t辿s Budapest, 2012.11.13. www.neticle.hu
  • 18. HunStem P辿ld叩k magyar nyelv撤 Tordai Anna sz坦t旦vez辿sre Neticle sz坦t旦vezje Budapest, 2012.11.13. www.neticle.hu
  • 19. Budapest, 2012.11.13. www.neticle.hu
  • 20. Raglev叩g坦 pontoss叩g叩nak alakul叩sa 100% 90% 80% 70% 60% 50% Raglev叩g坦 pontoss叩ga 40% 叩tlagosan: 89,67% 30% 20% 10% 0% 1 1203 2405 3607 4809 6011 7213 8415 9617 10819 12021 13223 14425 15627 Sz坦sz叩m Budapest, 2012.11.13. www.neticle.hu
  • 22. 意辿稼霞艶噛 Le鱈r叩s Sz旦vegb叩ny叩s Feladat zati neh辿zs辿 feladat ge C辿l entit叩s Amire a v辿lem辿ny N辿velem Neh辿z vonatkozik, p辿ld叩ul: azonos鱈t叩s iPhone Aspektus, A c辿l entit叩s tulajdons叩ga Inform叩ci坦kinye Neh辿z attrib炭tum vagy r辿szeleme, amire a r辿s v辿lem辿ny vonatkozik. V辿lem辿ny Maga a - t旦bbnyire V辿lem辿nykinyer K旦nny撤 szubjekt鱈v - v辿lem辿ny 辿s Forr叩s Az a szem辿ly (felhaszn叩l坦) Inform叩ci坦kinye Neh辿z aki megfogalmazta a r辿si 辿s v辿lem辿nyt n辿velem azonos鱈t叩si feladat Id A v辿lem辿ny Inform叩ci坦kinye Neh辿z megjelen辿s辿nek/keletkez r辿si 辿s 辿s辿nek ideje n辿velem azonos鱈t叩si feladat Budapest, 2012.11.13. www.neticle.hu
  • 23. A megfelel sz旦vegegys辿g meghat叩roz叩sa Budapest, 2012.11.13. www.neticle.hu
  • 24. A c辿l entit叩s azonos鱈t叩sa Budapest, 2012.11.13. www.neticle.hu
  • 25. 鰻辿噛沿看稼岳看一 Google r辿szv辿nyek 叩ra sz叩rnyal ma Budapest, 2012.11.13. www.neticle.hu
  • 27. Dokumentum beolvas叩sa Speci叩lis karakterk坦dol叩sok kezel辿se Dokumentum feldarabol叩s Tipikus Stopszavak kisz撤r辿se elfeldolgoz叩si T旦bbf辿le 鱈r叩sm坦d egy辿rtelm撤s鱈t辿se folyamat Szavak kisbet撤ss辿 alak鱈t叩sa A szavak sz坦t旦vez辿se Dokumentum felbont叩sa karakter n-grammokra/szavakra/sz坦 n- grammokra Vektort辿rmodell kialak鱈t叩sa Budapest, 2012.11.13. www.neticle.hu
  • 28. 閣辿鉛艶馨辿稼霞艶鉛艶馨噛辿壊庄 m坦dszerek Budapest, 2012.11.13. www.neticle.hu
  • 29. Fel端gyelt g辿pi tanul叩ssal megval坦s鱈tott v辿lem辿nym辿r辿si m坦dszerek Legk旦zelebb szomsz辿d m坦dszer SVM naiv Bayes Budapest, 2012.11.13. www.neticle.hu
  • 30. K辿tszint撤 oszt叩lyoz叩s 辿s tan鱈t坦halmaz alapj叩n scoring rendszer kialak鱈t叩sa Budapest, 2012.11.13. www.neticle.hu
  • 32. Szemantikus v辿lem辿nyorient叩ci坦 meg叩llap鱈t叩sa PMI m坦dszerrel Fel端gyeletlen g辿pi tanul叩ssal megval坦s鱈tott v辿lem辿nym辿r辿s Szemantikus v辿lem辿nyorient叩ci坦 meg叩llap鱈t叩sa szinonima sz坦t叩rra Budapest, 2012.11.13. www.neticle.hu
  • 33. G辿pi tanul叩s n辿lk端li m坦dszerek Budapest, 2012.11.13. www.neticle.hu
  • 34. V辿lem辿nysz坦 sz坦t叩r V辿lem辿ny kifejez辿s sz坦t叩r V辿lem辿nyerss辿g sz坦t叩r V辿lem辿nym坦dos鱈t坦 sz坦t叩r A Neticle sz坦t叩r alap炭 m坦dszere Budapest, 2012.11.13. www.neticle.hu
  • 35. Budapest, 2012.11.13. www.neticle.hu
  • 36. Budapest, 2012.11.13. www.neticle.hu
  • 37. Budapest, 2012.11.13. www.neticle.hu
  • 38. Budapest, 2012.11.13. www.neticle.hu
  • 39. Ki Hogyan Nyelv Accuracy SVM algoritmussal unigrammok felhaszn叩l叩s叩val IMDB weboldal filmkritik叩inak Pang et al (2002) elemz辿se angol 82,90% Szubjektivit叩s oszt叩lyoz叩ssal majd Naiv Bayes m坦dszerrel megval坦s鱈tott hierarchikus oszt叩lyoz叩ssal IMDB weboldal Pang et al (2004) filmkritik叩inak elemz辿se angol 86,40% Hatzivassiloglu Sz坦t叩r alap炭 m坦dszerrel a 辿s sz旦vegekben l辿v mell辿knevek McKeown orient叩ci坦ja alapj叩n becs端lt辿k (Szaszk坦 et al, meg dokumentumok 2009 alapj叩n) orient叩ci坦j叩t angol 78% Sz坦t叩r alap炭 m坦dszerrel weboldalak sz旦veg辿nek Neticle v辿lem辿nyelemz辿se magyar 80,48% Budapest, 2012.11.13. www.neticle.hu
  • 40. Ki Hogyan Nyelv Accuracy C4.5 d旦nt辿si fa algoritmussal kombin叩lt f坦rum v叩laszol叩si gr叩fmegold叩ssal Berend 辿s Farkas n辿pszavaz叩sr坦l alkotott (2008) v辿lem辿nyek oszt叩lyoz叩sa magyar 71,76% 240 magyar nyelv撤 filmkritika pozit鱈v negat鱈v oszt叩lyoz叩sa 炭n. robosztus kock叩zat minimaliz叩l叩s elven alapul坦 Szaszk坦 et al (2009) oszt叩lyoz叩ssal. magyar 76% Ha minden mondatot, a leggyakoribb, a semleges Baseline pontoss叩g kateg坦ri叩ba sorolunk magyar 58,71% Sz坦t叩r alap炭 m坦dszerrel weboldalak Neticle sz旦veg辿nek v辿lem辿nyelemz辿se magyar 80,48% Budapest, 2012.11.13. www.neticle.hu
  • 41. Budapest, 2012.11.13. www.neticle.hu
  • 42. rdekldknek aj叩nlott: Tikk, D. [2007]: Sz旦vegb叩ny叩szat, Typotex Elektronikus Kiad坦 Kft, Budapest Liu, B. [2011]: Sentiment Analysis Tutorial. AAAI-2011 Conference, San Francisco, USA. (let旦lthet:, utolj叩ra let旦ltve: http://www.cs.uic.edu/~liub/FBS/Sentiment-Analysis-tutorial-AAAI-2011.pdf , 2012. 叩prilis 19-辿n) Mih叩ltz M叩rton [2010]: OpinHu: online sz旦vegek t旦bbnyelv撤 v辿lem辿nyelemz辿se, VII. Magyar Sz叩m鱈t坦g辿pes Nyelv辿szeti Konferencia Berend, G., Farkas, R. [2008]: Opinion Mining in Hungarian based on textual and graphical clues, in Proceedings of the 4th Intern. Symposium on Data Mining and Intelligent Information Processing, Santander, 2008. Budapest, 2012.11.13. www.neticle.hu

Editor's Notes

  • #2: Szekeres P辿ter Neticle Technologies Bemutatkoz叩s
  • #6: Neticle WebLib MorphoLogic OpinHu
  • #9: 雨岳坦姻温乙看噛叩壊 kezel辿se: a strukturalista nyelvtan n辿zetet lev叩lt坦 Noam Chomsky 叩ltal bevezetett generat鱈v nyelvelm辿let 炭j megk旦zel鱈t辿st hozott a nyelvek kezel辿s辿be. A generat鱈v nyelvelm辿let jelents辿ge a nyelvek 辿s a sz旦vegk辿pz辿s matematikai megragad叩s叩ban algoritmiz叩l叩s叩ban - rejlik: Chomsky modellje alapj叩n egy nyelvnek v辿gtelen vari叩ci坦ja l辿tezhet az alap sz坦k辿szlet (jelk辿szlet) 辿s a sz坦- 辿s sz旦vegk辿pz辿si szab叩lyok alapj叩n. (Chomsky, 1965) A generat鱈v megk旦zel鱈t辿s k端l旦n旦sen igaz a magyar 辿s a t旦bbi agglutin叩l坦 nyelvre. A toldal辿kol坦 辿s szabad strukt炭r叩j炭 nyelvek automatikus feldolgoz叩s叩ra, mint p辿ld叩ul a magyar, a sz坦zs叩k modell a leggyakrabban alkalmazott m坦dszer. Ugyanakkor a sz旦vegek sz坦zs叩k modell alap炭 feldolgoz叩s叩hoz sz端ks辿ges, hogy az azonos jelent辿s撤nek tekintett szavak azonos alakra ker端ljenek, vagyis a gyakorlatban az ut坦ragokat 辿s bizonyos jeleket le kell v叩gni a sz坦v辿gekrl. A lev叩g叩sok algoritmiz叩l叩s叩n叩l k辿pezhetek szab叩lyok, azonban ezeknek figyelembe kell venni端k az 旦sszeolvad叩si, r辿szleges vagy 辿ppen teljes hasonul叩si nyelvtani szab叩lyokat, valamint az olyan sz坦t旦veket, melyek valamilyen ut坦ragra v辿gzdnek (p辿ld叩ul: sis ak , reg gel ). K端l旦n probl辿ma azon esetek kezel辿se, amikor a ragozott 辿s a ragn辿lk端li alak is 辿rtelmes sz坦t, p辿ld叩ul: folyam od . A probl辿m叩t j坦l mutatja, hogy egy ig辿nek az igei toldal辿kol叩s teljes reperto叩rj叩t felhaszn叩lva t旦bb mint 100 form叩ja lehet a magyar nyelvben: Igeid: 3 Igem坦d: 3 Szem辿ly: 3 Sz叩m: 2 Igenem: 2 Alanyi/T叩rgyas ragoz叩s: 2 sszesen : 3 x 3 x 3 x 2 x 2 x 2 = 216 [1] Tikk (2007) szerint egy fn辿vnek ak叩r 1400, mell辿kn辿vnek ak叩r 2700 alakja lehet! Hunglish kifejez辿sek: a webes sz旦vegekben, k端l旦n旦sen szakmai sz旦vegekben vagy 辿ppen olyan inform叩lis m辿diumokban, mint a k旦z旦ss辿gi oldalak, f坦rumok vagy blogok, igen elterjedt az angol nyelv撤 szavak haszn叩lata magyar mondatokban, p辿ld叩ul: trademark , outsourcing , trading , like , system, event, share A webes nyelvi uniformiz叩l坦d叩s 辿s mut叩l坦d叩s egy m叩sik jelens辿ge, mikor angol nyelv撤 szavakat magyaros鱈tanak a nyelvhaszn叩l坦k, azaz a kiejt辿s elve szerint 鱈rj叩k le, 辿s a magyar nyelvtan szab叩lyai szerint ragozz叩k az idegen eredet撤 szavakat, p辿ld叩ul: j炭zerrel , l叩jkol , szisztem, deployol Szleng 辿s web szleng: amikor webes sz旦vegeket elemz端nk, figyelembe kell venn端nk, hogy a web nyelvezete modern 辿s saj叩tos, 辿s 叩ltal叩nosak a szleng 辿s webes szleng kifejez辿sek, valamint az emotikonok haszn叩lata. K端l旦n旦sen igaz mindez 辿rzelmi megnyilv叩nul叩sokra: lol , lolz , omg , [email_address] , f@ck u, mind1, h, zomg Beviteli eszk旦z miatti saj叩toss叩gok: a hordozhat坦 eszk旦z旦krl (tipikusan okostelefonokr坦l) t旦rt辿n bevitelnek k旦sz旦nheten az inform叩lis k旦z旦ss辿gi oldalakon sokszor tal叩lkozhatunk eg辿szen saj叩tos szintaktikai 辿s szemantikai szab叩lyokat k旦vet mondatokkal 辿s f辿lmondatokkal: Nincsenek 辿kezetek. Nincsenek nagybet撤k Nincsenek 鱈r叩sjelek a sz旦vegben, vagy csak mondatv辿gi 鱈r叩sjelek haszn叩l a szerz. A szavak helyes鱈r叩sa laz叩n kezelt. Jellemzek az elg辿pel辿sek. Ha sz叩m鱈t坦g辿ppel akarjuk feldolgozni ezeket a kommenteket 辿s hozz叩sz坦l叩sokat, akkor az eml鱈tett jelens辿gek t旦meges elfordul叩s叩ra fel kell k辿sz鱈teni a rendszert. Karakterk坦dol叩si neh辿zs辿gek: kev辿sb辿 trivi叩lis, de magyar nyelv撤 webes sz旦vegek sz叩m鱈t坦g辿pes feldolgoz叩s叩n叩l tipikus probl辿ma a karakterk坦dol叩s megfelel kezel辿se: HTML oldalak let旦lt辿s辿n辿l illetve sz旦vegek adatb叩zisba vagy f叩jlba export叩l叩s叩n叩l figyelni kell, hogy a magyar 辿kezetes bet撤k (azon bel端l is elssorban az 辿s 撤 bet撤k) megjelen鱈t辿se megfelel-e: UTF-8 vagy Latin2 karakterk坦dol叩s aj叩nlott. Szint辿n HTML oldalak feldolgoz叩sakor lehet probl辿ma, ha az adott kiszolg叩l坦 az 辿kezetes 辿s egy辿b k端l旦nleges karaktereket a sz旦vegben HTML karakterk坦ddal (p辿ld叩ul: á -> 叩) jel旦li a forr叩sf叩jlban. Ekkor gondoskodni kell a dek坦dol叩sr坦l feldolgoz叩s eltt. Kontextus- 辿s szakter端leti f端ggs辿g: v辿lem辿nyek sz坦zs叩k modell alap炭 elemz辿s辿n辿l probl辿ma lehet, hogy egy adott sz坦 vagy kifejez辿s kontextusonk辿nt elt辿r jelent辿ssel b鱈rhat: egy kifejez辿s pozit鱈v egy adott kontextusban, m鱈g ellent辿tes ir叩ny炭 egy m叩sik kontextusban. Tagad叩sok sokf辿les辿ge : a magyar nyelvben a tagad叩s t旦bbf辿le m坦don lehets辿ges: Tagad坦szavakkal 辿s tilt坦szavakkal (p辿ld叩ul: sem, nem, se, ne, se nem, sincs, nincs, sincsen, nincsen ), melyek elhelyezkedhetnek k旦zvetlen端l a vagy ak叩r 1 poz鱈ci坦val a tagad叩s t叩rgya eltt illetve ut叩n. Foszt坦k辿pzk (p辿ld叩ul: -atlan, -etlen, -mentes) seg鱈ts辿g辿vel Egy v辿lem辿nyelemz rendszern辿l alapk旦vetelm辿ny, hogy a rendszernek kezelnie kell a k端l旦nb旦z tagad叩sokat (a polarit叩s neg叩l叩s叩t), elt辿r esetben drasztikusan romlik a v辿lem辿nyelemz辿s pontoss叩ga, mivel pontosan ellent辿tesen 辿rtelmezi az adott v辿lem辿nyt. [1] A val坦s叩gban valamivel kevesebb az 旦sszes lehets辿ges alak, mert p辿ld叩ul a szenved ig辿knek nincsen t叩rgyas ragoz叩sa.
  • #15: A sz坦t旦vez辿s illetve lemmatiz叩l叩s [1] k端l旦n旦sen fontos elfeldolgoz叩si l辿p辿s a sz旦veges adatok sz叩m鱈t坦g辿pes elemz辿se sor叩n, seg鱈ts辿g端kkel egys辿ges, kanonikus alakra hozhat坦ak a sz旦vegek szavai. Defin鱈ci坦 szerint : a sz坦t旦vez辿s egy olyan algoritmus, mely sor叩n a toldal辿kokkal ell叩tott sz坦 alapj叩n el叩ll鱈tjuk a sz坦t旦vet . (Fajszi (2010) 295. oldal) A toldal辿kok lev叩g叩s叩val n旦velhet a sz坦elfordul叩son vagy t旦bb szavas kifejez辿sek elfordul叩s叩n alapul坦 elemz辿sek illetve sz旦veges keres辿si feladatok pontoss叩ga. Ugyanakkor sz旦vegb叩ny叩szati elemz辿sek megval坦s鱈t叩s叩n叩l is figyelembeveend mind t叩rhely mind feldolgoz叩si teljes鱈tm辿ny szempontj叩b坦l, hiszen ha az elemzett sz旦vegeket vektort辿rmodellben [2] reprezent叩ljuk, akkor a vektort辿rmodell m辿ret辿t jelentsen cs旦kkenthetj端k, mivel a sz坦alakonk辿nti dimenzi坦 helyett a kanonikus alakhoz csak a vektort辿r egy dimenzi坦ja tartozik. (Tikk (2007) 41. oldal). Az ily m坦don t旦rt辿n redukci坦 jelentsen cs旦kkentheti egy elemz辿si alkalmaz叩s t叩rhely, mem坦ria 辿s sz叩m鱈t叩si kapacit叩s sz端ks辿glet辿t. Tikk (2007) szerint angol nyelvre 40-70%, m鱈g nyelvre ak叩r 90%-os m辿ret-megtakar鱈t叩st is jelenthet a sz坦t旦vez辿s. A tov叩bbiakban k端l旦nbs辿get tesz端nk sz坦t旦vez辿s 辿s lemmatiz叩l叩s k旦z旦tt: Sz坦t旦vez辿s : a toldal辿kok lev叩g叩sa ut叩n marad坦 sz坦 nem felt辿tlen端l 辿rtelmes sz坦alak a k旦thangok 辿s hangz坦m坦dosul叩sok miatt, p辿ld叩ul: ajtaja -> ajt. Lemmatiz叩l叩s: A k端l旦nb旦z sz坦alakok lemm叩kba val坦 csoportos鱈t叩sa. (Szirmai (2005) 177. o.) Ahol a lemma az azonos sz坦tbl sz叩rmaz坦 旦sszes (叩ltal叩ban azonos sz坦faj炭) sz坦alakot 叩tfog坦 kateg坦ria, pl. ugr叩l, ugrik, ugrott stb. A kutat叩s ig辿nyeihez igazodva k端l旦nb旦z sz坦faj炭 alakok is tartozhatnak egy lemm叩ba. (Szirmai (2005) 177. o.) A lemm叩kat reprezent叩l坦 sz坦alak 旦nmag叩ban 辿rtelmes, normaliz叩lt sz坦t叩ri sz坦alak: ajtaja -> ajt坦. (Tikk (2007)) A fenti 辿rtelemben a lemmatiz叩l叩s valamivel bonyolultabb feladat, jellemzen a sz坦t旦vez辿si toldal辿k-lev叩g叩si elj叩r叩sok kieg辿sz鱈t辿se ut坦feldolgoz叩si transzform叩ci坦kkal. A probl辿m叩t nehez鱈ti, hogy az ut坦feldolgoz叩si kieg辿sz鱈t l辿p辿sek gyakorlatilag egyediek a magyar nyelv szavai eset辿n. [3] Nem agglutin叩l坦 nyelvekn辿l a sz坦t旦vez辿s 辿s a lemmatiz叩l叩s feladat k旦z旦tt nincs jelents k端l旦nbs辿g. A bonyolults叩ga ellen辿re az 辿rtelmes alakot ad坦 lemmatiz叩l叩s aj叩nlott, mivel az 鱈gy kapott dokumentum reprezent叩ci坦k ugyan炭gy kanonikus sz坦alakok halmaz叩n alapulnak megval坦s鱈tva a sz坦k辿szlet redukci坦 minden elny辿t -, emellett pedig t旦k辿letesen alkalmasak a kapott 辿rtelmes sz坦alakok a tov叩bbi feldolgoz叩sra, p辿ld叩ul ak叩r k旦zvetlen端l megjelen鱈thetek a felhaszn叩l坦 sz叩m叩ra egy alkalmaz叩sban sz坦gyakoris叩gi diagram vagy sz坦felh form叩j叩ban. [4] [1] Angolul: stemming [2] A vektort辿rmodell l辿nyege, hogy egy dokumentumot szavakra bontunk, 辿s a benne elfordul坦 szavak 叩br叩zoljuk. Egy dokumentumhalmaz eset辿n ez azt jelenti, hogy a korpuszt egy jellemzen igen nagy m辿ret撤 k辿tdimenzi坦s ritkam叩trix-szal reprezent叩ljuk elfeldolgoz叩s ut叩n, ahol a m叩trix egy egyik dimenzi坦ja a dokumentumokat, a m叩sik pedig a korpuszban elfordul坦 szavakat jel旦li. A m叩trix mezi jel旦lik, hogy adott dokumentumban az adott sz坦 szerepel-e. (A bin叩ris 辿rt辿keken mellett m叩s 辿rt辿keket is szoktak sz叩molni a vektort辿rmodell mezibe, p辿ld叩ul gyakoris叩gokat, vagy norm叩lt gyakoris叩gokat, stb. (l叩sd m辿g: TF-IDF s炭lyoz叩s)). [3] P辿ld叩ul az angol nyelvre k辿sz鱈tett egyik els sz坦tv旦ez, a Lovins-t旦vez gyengepontja volt ez az ut坦lagos transzform叩ci坦. [4] A Smirnov (2008) 叩ltal hivatkozott Frakes (1984) ennek ellenkezje mellett 辿rvel, szerinte a sz坦t旦vez辿s/lemmatiz叩l叩s nyugodtan adjon 旦nmag叩ban nem 辿rtelmes t alakot, mivel bels feldolgoz叩sn叩l a kanonikus alak jellemzen csak egy dimenzi坦 vagy attrib炭tum. Frakes azonban figyelmen k鱈v端l hagyja az eredm辿nyek felhaszn叩l坦bar叩t megjelen鱈t辿s辿t, csak a bels elemz辿s hat辿konys叩g叩t tartja szem eltt.
  • #17: Algoritmikus, nyelvspecifikus transzform叩ci坦s szab叩lyok: nagy teljes鱈tm辿nyre k辿pes megold叩sok, melyek pontoss叩ga kiv辿telsz坦t叩rral ersen jav鱈that坦. Megval坦s鱈t叩saik komoly nyelv辿szeti ismereteket ig辿nyel. Ilyen, 叩t鱈r叩sos szab叩lyhalmazon alapul坦 m坦dszer p辿ld叩ul Porter algoritmusa (l叩sd: 5.3.4 fejezet) vagy az annak m撤k旦d辿si elv辿t t旦bb nyelvre alkalmaz坦, szint辿n Porter 叩ltal k辿sz鱈tett Snowball sz坦t旦vez辿si keretrendszer (l叩sd: 5.3.5 fejezet). Szavakat 辿s sz坦t旦veiket alkalmaz坦 sz坦t叩rak alkalmaz叩sa: j坦l kezeli a rendhagy坦 eseteket, azonban a sz坦t叩r fel辿p鱈t辿se meglehetsen idig辿nyes, 辿s folyamatos karbantart叩st ig辿nyel. Egy辿b, statisztikai m坦dszerek : jellemzen nyelvf端ggetlen megold叩sok. P辿ld叩ul: Szavakat 辿s toldal辿kokat tartalmaz坦 sz坦t叩rakban a szavak lehets辿ges felbont叩sainak elfordul叩sainak ellenrz辿se. Sz坦t叩rklaszterez辿s 炭tj叩n t旦rt辿n vizsg叩lat, annak meg叩llap鱈t叩s叩ra, hogy melyik szavakhoz tartozhat azonos t.
  • #19: HunStem A HunStem a BME MOKK [1] 叩ltal fejlesztett szab叩ly 辿s sz坦t叩r alap炭 sz坦t旦vez. A HunStem az 炭n. HunLex keretrendszerben megval坦s鱈tott morphdb.hu [2] adatb叩zison alapul 辿s a hozz叩 kapcsol坦d坦 nyelvi eszk旦z旦k (HunTools: HunStem, HunSpell, HunMorph) egyike. A HunStem a nyelvtani szab叩lyrendszere (morfol坦giai erforr叩sai) mellett haszn叩l a sz坦t旦vez辿shez egy tt叩rat 辿s egy affixumt叩rat (lexikai erforr叩s). A lexikai 辿s morfol坦giai erforr叩sokat a HunLex rendszer 叩ll鱈tja el a bels komplex nyelvtani rendszere 辿s nyelvet le鱈r坦 叩tfog坦 lexikona alapj叩n att坦l f端ggen, hogy p辿ld叩ul gyenge (ink叩bb alult旦vez辿sre hajlamos) vagy ers (ink叩bb t炭lt旦vez辿sre hajlamos) t旦vez辿si algoritmusra van sz端ks辿g az adott feladathoz. (A rendszer sz坦t叩ra t旦bb mint 120油000 magyar lemm叩t tartalmaz.) Tordai-f辿le magyar Snowball alap炭 sz坦t旦vez Tordai Anna megold叩sa az 炭gynevezett inflexi坦s toldal辿kokat v叩gja le, azaz csak a ragokat 辿s jeleket, a k辿pzket nem. Ez megfelel az 叩ltalam magyar nyelvre defini叩lt 2. sz坦t旦vez辿si szintnek. Tordai Anna 4 f辿le sz坦t旦vez algoritmust alak鱈tott ki magyar nyelvre (Tordai, 2005). Ezek jellemzi: LIGHT1 : csak a leggyakoribb 14 fn辿vi esetet kezeli. Ennek ellen辿re m叩r ez is jelent辿kenyen jav鱈thatja a keres辿si hat辿konys叩got . (Tikk, 2007) LIGHT2 : 21 esetet kezel, valamint a LIGHT1 叩ltal figyelmen k鱈v端l hagyott egykarakteres toldal辿kok k旦z端l az akkuzativusz (t叩rgyrag -t) 辿s szuperessz鱈vusz (-n) toldal辿kokat is lev叩gja. Mindk辿t sz坦t旦vez figyelembe veszi a sz坦tjel旦lt hossz叩t 辿s, hogy tartalmaz-e 辿rv辿nyes m叩ssalhangz坦mag叩nhangz坦 kombin叩ci坦t . (Tikk, 2007) MEDIUM : 12 gyakori fn辿vi esetet kezel, a birtokos 辿s birtokok, valamint a szem辿lyek sz叩m叩t is figyelembe v辿ve. Ezen k鱈v端l kezeli a leggyakoribb igealakokat (id, sz叩m, szem辿ly), a mell辿knevek fokoz叩s叩t, valamint a sz叩mnevekn辿l a t旦rtsz叩mn辿v 辿s sorsz叩mn辿v toldal辿kait. (Tikk, 2007) HEAVY : mind a 21 esetet 辿s az 旦sszes igealakot figyelembe veszi. (Tikk, 2007) Az egyes megold叩sok az alkalmazott szab叩lyokban 辿s l辿p辿sekben k端l旦nb旦znek. Homonim叩k eset辿n a r旦videbb alakot adja vissza a megold叩s, valamint a Heavy verzi坦 m叩r ersen t炭lt旦vez. Jellemz hib叩ja a t v辿g撤 szavak t炭lt旦vez辿se a t叩rgyrag 辿s a m炭lt id jele miatti lev叩g叩sok miatt. A k辿sz鱈tk a CLEF[3] 2005 magyar nyelv撤 korpusz叩n v辿gzett kutat叩saik sor叩n azt tapasztalt叩k, hogy a Light2 辿s a Heavy t旦vezk az inform叩ci坦-visszakeres辿s[4] sor叩n magasabb felid辿z辿st ny炭jtanak a sz坦t旦vez辿s n辿lk端li, illetve a m叩sik k辿t verzi坦n alapul坦 megold叩sn叩l. A Heavy verzi坦 a t炭lt旦vez辿si tulajdons叩ga miatt azonban rosszabb pontoss叩ggal b鱈rt, ez辿rt a Light2 verzi坦t tal叩lt叩k a legalkalmasabbnak a k辿sz鱈tk inform叩ci坦 visszakeres辿si feladatokhoz.[5] [1] Budapesti M撤szaki Egyetem M辿dia Oktat坦 辿s Kutat坦 K旦zpont [2] L叩sd: http://mokk.bme.hu/resources/morphdb-hu/ [3] Common Language Evaluation Forum [4] Information retrieval [5] A teljes 辿rt辿kel辿shez hozz叩 tartozik, hogy a korpusz szavainak 65%-a fn辿v, 12%-a mell辿kn辿v 辿s 10% ige, 辿s az egyes verzi坦k k旦z旦tti k端l旦nbs辿g pontosan a sz坦faji gyakori esetek kezel辿s辿n illetve nem kezel辿s辿n alapszik (Tikk, 2007), teh叩t egy kevesebb fnevet tartalmaz坦 korpuszon elt辿r eredm辿nyek sz端lethetnek a legjobb verzi坦 meg叩llap鱈t叩sa sor叩n.
  • #21: Sz坦t旦vez j坦s叩ga: Alult旦vez辿s T炭lt旦vez辿s TM feladat pontoss叩g javul叩sa
  • #22: A v辿lem辿nyelemz辿s a term辿szetes nyelvfeldolgoz叩s (NLP)[1] r辿szter端lete, de rendk鱈v端l neh辿z feladat, t旦bb fontos szempontot, illetve neh辿zs辿get is kezelni kell egy v辿lem辿nyelemz辿si megold叩s tervez辿sekor. Liu (2011) kiemeli, hogy a v辿lem辿nyelemz辿si probl辿ma defini叩l叩sakor k辿t alapfeladat van: Meghat叩rozni, hogy mi sz叩m鱈t v辿lem辿nynek : hogyan k端l旦n鱈tj端k el az objekt鱈v negat鱈v t旦rt辿n辿seket a szubjekt鱈v v辿lem辿nynyilv叩n鱈t叩sokt坦l, illetve egy叩ltal叩n elk端l旦n鱈tj端k-e. Ha az elemz辿s mondat szinten t旦rt辿nik, akkor jellemzen egy fel端gyelt tan鱈t叩ssal tan鱈tott modell (naiv Bayes vagy SVM algoritmust haszn叩lva) seg鱈ts辿g辿vel elbb oszt叩lyozz叩k a mondatokat aszerint, hogy objekt鱈v vagy szubjekt鱈v mondatokr坦l van-e sz坦, 辿s csak a szubjekt鱈v mondatok polarit叩s叩t vizsg叩lj叩k. sszefoglalni a v辿lem辿nyeket : a v辿lem辿nyelemz辿s akkor j坦, ha siker端l rengeteg v辿lem辿ny gy撤jteni 辿s elemezni. Azonban a ki辿rt辿kel辿sn辿l, 辿s az eredm辿nyek 旦sszefoglal叩s叩n叩l fontos feladat a v辿lem辿nyek jellemzen kvantitat鱈v - t旦m旦r鱈t辿se, hogy az eredm辿nyek felhaszn叩lhat坦ak 辿s 辿rtelmezhetek legyenek. [1] Natural Language Processing
  • #23: Meghat叩rozni, hogy mi sz叩m鱈t v辿lem辿nynek sszefoglalni a v辿lem辿nyeket
  • #24: A v辿lem辿nyelemz辿s sor叩n a dokumentum feldarabol叩sa kisebb egys辿gekre elt辿r eredm辿nyekhez vezethet. A kisebb egys辿gekben k旦nnyebben meghat叩rozhat坦, hogy egy direkt v辿lem辿ny a kutat叩s t叩rgy叩ra vonatkozik-e vagy sem. Azonban az egyes sz旦vegegys辿gek k旦z旦tti n辿vm叩si 辿s egy辿b hivatkoz叩sok, illetve utal叩sok j坦val nehezebben dolgozhat坦ak fel. A kisebb egys辿gek aggreg叩lt 辿rt辿kei adj叩k a nagyobb egys辿gek polarit叩s叩t.
  • #25: V辿lem辿nyek azonos鱈t叩sa sor叩n azt is meg kell hat叩rozni a lehet legpontosabban, hogy mire vonatkozik a v辿lem辿ny. Liu (2011) kiemeli az attrib炭tum (aspektus) alap炭 v辿lem辿nyelemz辿st, melynek l辿nyege, hogy nem csak c辿lobjektum eg辿sz辿re vizsg叩ljuk az 辿rt辿kel辿seket, hanem annak bizonyos r辿szegys辿geire, jellemzire is. Az aspektusokra lehet egyszer撤 egyszint撤 hierarchikus lebont叩s, de sz端ks辿g eset辿n lehet eg辿szen komplex t旦bbszint撤 taxon坦mia vagy objektum modell is. Liu (2011) javaslata alapj叩n 旦k旦lszab叩lyk辿nt haszn叩lhat坦, hogy a v辿lem辿ny kifejez辿shez legk旦zelebb es fn辿vre vonatkozik a v辿lem辿ny. A v辿lem辿ny t叩rgy叩nak felismer辿s辿t nehez鱈ti, hogy az aspektusok (p辿ld叩ul 叩r) lehetnek explicite megeml鱈tve a sz旦vegben: t炭l magas az 叩ra, de lehetnek implicit m坦don is: t炭l dr叩ga. A c辿l entit叩s felismer辿sekor teh叩t nem mindegy, hogy a teljes objektumra vonatkozik a v辿lem辿ny vagy annak egy aspektus叩ra, valamint, hogy az egyes aspektus v辿lem辿nyeket hogyan aggreg叩ljuk a teljes objektumr坦l sz坦l坦 v辿lem辿nyek/polarit叩s meghat叩roz叩s叩hoz. Ide叩lis esetben egy a v辿lem辿nyelemz kezeli a c辿l entit叩s illetve az aspektusok szinonim叩it, az esetleges homonim叩kat, a n辿vm叩si hivatkoz叩sokat 辿s a gyakori el鱈r叩sokat.
  • #26: Liu (2011) r叩vil叩g鱈t arra is, hogy egy叩ltal叩n nem mindegy egy adott v辿lem辿ny ki辿rt辿kel辿s辿n辿l, hogy kinek a szempontj叩b坦l v辿gezz端k az elemz辿st. A Google r辿szv辿nyek 叩ra sz叩rnyal ma mondat p辿ld叩ul igen pozit鱈v annak, aki rendelkezik Google r辿szv辿nyekkel, de p辿ld叩ul kifejezetten rossz h鱈r annak, aki pont elz nap adta el a Google pap鱈rjait. A jelenlegi kutat叩sok vagy meghat叩roznak egy jellemz 叩ltal叩nos n辿zpontot, vagy figyelmen k鱈v端l hagyj叩k a probl辿m叩t.
  • #27: A n辿zpont mellett l辿nyeges kih鱈v叩s az egyes szakter端letek speci叩lis nyelvezet辿nek kezel辿se. A k辿t probl辿ma k旦z旦tt sokszor nem is lehet k端l旦nbs辿get tenni. Elfordulhatnak olyan kifejez辿sek a vizsg叩lt sz旦vegekben, melyek egy 叩ltal叩nos v辿lem辿nyelemz辿s sor叩n nem rendelkeznek polarit叩ssal, de a szakter端leti v辿lem辿nyelemz辿s sor叩n, a szaknyelv miatt m叩r ersen pozit鱈v vagy negat鱈v jelent辿s端k van. Ezek kiemelt kezel辿s辿re sz坦t叩ralap炭 m坦dszerekn辿l van sz端ks辿g, amikor az elre kialak鱈tott v辿lem辿ny sz坦t叩rat m坦dos鱈tani vagy bv鱈teni kell.
  • #28: Az egyes v辿lem辿nym辿r辿si algoritmusok bemutat叩s叩n叩l nem t辿rek ki k端l旦n a sz旦veges elfeldolgoz叩si l辿p辿sekre. Ezek 叩ltal叩nos bemutat叩sa jelen fejezet c辿lja. Egy sz旦veggy撤jtem辿nyre vonatkoz坦 elfeldolgoz叩s jellemzen a k旦vetkez l辿p辿seket illetve d旦nt辿seket foglalja mag叩ban: Dokumentum beolvas叩sa: a dokumentum beolvas叩sa mind egyedi fejleszt辿s撤, mind ismert sz旦vegb叩ny叩szati megold叩ssal fontos feladat, mivel a sz旦veges dokumentumok t旦bbf辿le forr叩sb坦l sz叩rmazhatnak: weboldal, adatb叩zis, xls f叩jl, txt f叩jl, doc f叩jl, xml f叩jl, JSON f叩jl, stb. Speci叩lis karakterk坦dol叩sok kezel辿se : HTML escape karakterek dek坦dol叩sa, magyar sz旦vegekn辿l UTF-8, Latin2 karakterk坦dol叩s haszn叩lata, sz端ks辿g eset辿n konverzi坦 vagy karaktercsere alkalmazhat坦. Dokumentum feldarabol叩s: bizonyos elemz辿sek illetve dokumentumok eset辿n sz端ks辿g lehet arra, hogy a beolvasott dokumentumot sz辿tv叩gjuk kisebb sz旦vegegys辿gekre. P辿ld叩ul k端l旦n kezelj端k egy cikk fejezeteit, vagy egy sz旦vegnek a mondatati k辿pezik az elemz辿s alapj叩t (l叩sd: 10. 叩bra). Stopszavak kisz撤r辿se : amennyiben olyan elemz辿st v辿gz端nk, amely b叩rmilyen szinten 辿p鱈t tokenek gyakoris叩g叩ra, akkor 辿rdemes az adott nyelv jelent辿s t旦bblettel nem b鱈r坦, de gyakori szavait kisz撤rni. Ilyen lehet p辿ld叩ul a n辿velk vagy a l辿tig辿k kisz撤r辿se magyar nyelv撤 sz旦vegek eset辿n. A sz端ks辿ges stopsz坦 lista 旦ssze叩ll鱈t叩sa feladatf端gg, de a weben hozz叩f辿rhetek az egyes nyelvek aj叩nlott stopsz坦list叩i, melyet sz端ks辿g m坦dos鱈thatunk az elemz辿si specifikumainknak megfelelen. T旦bbf辿le 鱈r叩sm坦d egy辿rtelm撤s鱈t辿se: ha egyes szavaknak t旦bbf辿le 鱈r叩sm坦dja haszn叩latos (ak叩r gyakori helyes鱈r叩si, elg辿pel辿se hib叩k miatt), akkor azokat k旦z旦s alakra kell hozni: p辿ld叩ul e-mail 辿s email szavak azonos alakra hoz叩sa. Szavak kisbet撤ss辿 alak鱈t叩sa A szavak sz坦t旦vez辿se a megfelel sz坦t旦vez辿si szinten (l叩sd: 5. fejezet) Dokumentum felbont叩sa karakter n-grammokra/szavakra/sz坦 n-grammokra : az egyes sz旦veges feldolgoz叩si algoritmusok m叩s-m叩s tokenfelbont叩sra 辿p端lnek. A dokumentum tokeniz叩l叩s叩n叩l 辿rdemes figyelembe venni, hogy a tokenek sz叩ma megegyezik a dokumentum-token bin叩ris vektort辿rm叩trix egyik dimenzi坦j叩val, amely 鱈gy rendk鱈v端l nagyra is megnhet, mellyel egy端tt n旦vekszik az elemz辿s sz叩m鱈t叩si kapacit叩sa modelltl f端ggen line叩ris, de ak叩r exponenci叩lis m辿rt辿kben. Vektort辿rmodell kialak鱈t叩sa: nem k旦telez elfeldolgoz叩si l辿p辿s, de a legt旦bb sz旦vegelemz辿si algoritmus ezzel a korpusz reprezent叩ci坦s m坦dszerrel dolgozik. A korpusz dokumentumait egy token 辿s a dokumentum dimenzi坦kkal rendelkez bin叩ris m叩trix-szal 叩br叩zoljuk, ahol a m叩trix 辿rt辿kei mutatj叩k, hogy adott token adott dokumentumban milyen gyakran szerepel.
  • #30: V辿lem辿nyoszt叩lyoz叩s legk旦zelebbi szomsz辿d m坦dszerrel A k legk旦zelebbi szomsz辿d m坦dszer[1] l辿nyege, hogy a kategoriz叩land坦 sz旦veghez legk旦zelebb es sz旦vegek kateg坦ri叩i alapj叩n hat叩rozzuk meg a c辿lsz旦veg kateg坦ri叩j叩t. (Tikk, 2007). A d旦nt辿sn辿l k sz叩m炭 legink叩bb hasonl坦 dokumentum c鱈mk辿je alapj叩n kell d旦nteni, a legt旦bbsz旦r szerepl c鱈mk辿t kapja a dokumentum (egyszer撤 t旦bbs辿gi szavaz叩s). A hasonl坦s叩g a vektort辿rmodell 辿rt辿kei k旦z旦tti k端l旦nb旦z t叩vols叩g metrik叩k (p辿ld叩ul koszinusz-t叩vols叩g) alapj叩n kalkul叩lhat坦. Tikk (2007) eml鱈ti, hogy k 辿rt辿k辿t jellemzen p叩ratlannak v叩lasztj叩k, 辿s a valid叩ci坦s adatok tapasztalatai alapj叩n hat叩rozz叩k meg. Egyes kutat叩sok 30-45, m鱈g m叩sok 3-5 k旦z旦tti k 辿rt辿ket javasolnak. A m坦dszer legfbb h叩tr叩nya a magas, val坦s idej撤 sz叩m鱈t叩si ig辿ny. V辿lem辿nym辿r辿s Szupportvektor-g辿ppel A Szupportvektor-g辿pek[2] igen hat辿kony oszt叩lyoz坦k. Az algoritmus olyan hipers鱈kokat 叩llap鱈t meg, melyek elv叩gj叩k a k端l旦nb旦z oszt叩lyok ment辿n a tan鱈t坦 adathalmaz pontjait (a vektort辿rmodell k端l旦nb旦z sz旦vegeit). A v叩g坦 hipers鱈kot 炭gy hat叩rozz叩k meg, hogy az a lehet legt叩volabb legyen a k旦zeli pontokt坦l, teh叩t a lehet legjobb v叩g叩s legyen a tan鱈t坦 adathalmazon lehets辿ges alkalmas v叩g叩sok k旦z端l. Tikk (2007) kiemeli, hogy az SVM algoritmusok erss辿ge abban rejlik, hogy a szepar叩l坦 hipers鱈kok a lehet legjobban oszt叩lyozz叩k a bizonytalan, teh叩t a szepar叩l坦 s鱈khoz k旦zel es pontokat a fenti optimaliz叩l叩s miatt. A m坦dszer az egyik leghat辿konyabb sz旦vegoszt叩lyoz叩si tanul坦 algoritmus. J坦l sk叩l叩zhat坦, nem 辿rz辿keny a rendk鱈v端l magas dimenzi坦sz叩mra (tokensz叩mra). Nincs sz端ks辿g valid叩ci坦ra, mert eleve az optim叩lis v叩g坦 s鱈kot alkalmazz, 辿s a tan鱈t坦adatok alapj叩n adhat坦 egy elm辿leti fels hibakorl叩t a k辿sbbi, ismeretlen adatokon t旦rt辿n oszt叩lyoz叩sra. (Tikk, 2007) [1] K-NN, k Nearest Neighbour [2] SVM, Support Vector Machine
  • #31: A megold叩s hasonl鱈t a naiv-Bayes algoritmusra. A l辿nyege, hogy az elemezend dokumentumgy撤jtem辿nyt megfelelen reprezent叩l坦 mint叩t (tan鱈t坦 sz旦vegeket) annot叩ljuk, azaz ell叩tjuk a pozit鱈v, negat鱈v 辿s semleges c鱈mk辿k valamelyik辿vel. A dokumentumokat felbontjuk tokenekre 辿s megvizsg叩ljuk, hogy az egyes tokenek milyen gyakran fordulnak pozit鱈v illetve negat鱈v c鱈mk辿j撤 dokumentumokban. Az elfordul叩s alapj叩n a tokenekhez pozit鱈v illetve negat鱈v pontsz叩mokat rendel端nk. A pontsz叩m lehet maga a gyakoris叩g vagy a gyakoris叩g alapj叩n kalkul叩lt 辿rt辿k, p辿ld叩ul a gyakoris叩g normaliz叩lt 辿rt辿ke vagy az egyes 辿rt辿kek besorol叩sa kateg坦ri叩kba. Az el叩llt token scoring rendszer (token-pontsz叩m sz坦t叩r) alapj叩n pozit鱈v 辿s negat鱈v pontsz叩m sz叩m鱈that坦 tov叩bbi dokumentumokra, 辿s eld旦nthet, hogy az adott sz旦veg pozit鱈v, negat鱈v vagy semleges polarit叩s炭. A modell t旦bb szempontb坦l is tov叩bb finom鱈that坦: Az elemz辿s egys辿ge: a dokumentum felbonthat坦 kisebb egys辿gekre, p辿ld叩ul fejezetekre, mondatokra, melyek polarit叩s叩nak valamilyen m坦d炭 aggreg叩l叩sa adja a dokumentum polarit叩s叩t. A polarit叩s kateg坦ri叩k bv鱈t辿se : a pozit鱈v-negat鱈v-semleges h叩rmas sk叩la helyett r辿szletesebb sk叩la is haszn叩lhat坦. Vagy pedig a pozit鱈v 辿s negat鱈v kateg坦ri叩kon bel端l 炭jabb szinteket (p辿ld叩ul: enyh辿n pozit鱈v, k旦zepesen pozit鱈v, ersen pozit鱈v) defini叩lhatunk, mely esetben k辿tszint撤 oszt叩lyoz叩st alkalmazhatunk. A pontsz叩m kalkul叩ci坦 alapja: a token egyszer撤 elfordul叩sa helyett figyelembe vehetj端k, hogy milyen m叩s tokenekkel fordul egy端tt el az adott token, vagy p辿ld叩ul h叩nyszor fordul el m叩s kateg坦ri叩kban, mennyire megk端l旦nb旦ztet erej撤 a token. A modell granularit叩s叩nak meghat叩roz叩ssa a modellez feladata, f端gg az elemz辿s c辿lj叩t坦l 辿s a rendelkez辿sre 叩ll坦 tan鱈t坦halmaz tulajdons叩gait坦l is.
  • #32: A d旦nt辿si f叩k sz旦vegoszt叩lyoz叩shoz, 辿s ez alapj叩n v辿lem辿nym辿r辿shez is haszn叩lhat坦ak. A d旦nt辿si f叩k vektort辿rmodell alapj叩n gener叩lhat坦ak. A fa csom坦pontjaiban a tokenek mint attrib炭tumok tal叩lhat坦ak, m鱈g az 叩gak felt辿teleket jelentenek az adott tokenre vonatkoz坦an. Ez a felt辿tel lehet egy egyszer撤 szerepel-e a token a dokumentumban felt辿tel, de lehet az elfordul叩sok sz叩m叩ra vonatkoz坦 k端sz旦b辿rt辿k vagy 辿rt辿kintervallum is. A d旦nt辿si fa leveleiben a pozit鱈v, negat鱈v illetve semleges c鱈mk辿k tal叩lhat坦ak. Tikk (2007) szerint a sz旦vegoszt叩lyoz叩shoz a tipikus d旦nt辿si fa tan鱈t坦algoritmusokat haszn叩lj叩k: ID3 C4.5 C5.0 CART CHAID A d旦nt辿si f叩k nagy elnye, hogy az ember sz叩m叩ra k旦nnyen 辿rtelmezhet eredm辿nyt ny炭jt, 辿s a fa egyszer撤en alak鱈that坦 ha-akkor szab叩lyhalmazz叩. A d旦nt辿si f叩k alkalmaz叩sa akkor aj叩nlott, amikor elrel叩that坦an viszonylag kev辿s, de nagy megk端l旦nb旦ztet erej撤 token seg鱈ts辿g辿vel megoldhat坦 az oszt叩lyba sorol叩s, ugyanakkor emiatt a tulajdons叩ga miatt gyakran elfordul t炭ltanul叩s, azaz a kapott modell a tan鱈t坦adatokra j坦 eredm辿nyt ad, de 炭j dokumentumok oszt叩lyoz叩sa eset辿n gyenge.
  • #33: pontonk辿nti k旦lcs旦n旦s inform叩ci坦 sz叩m鱈t叩s叩val PMI: azaz a 辿s b egy端ttelfordul叩si val坦sz鱈n撤s辿g辿t el kell osztani a elfordul叩si 辿s b elfordul叩si val坦sz鱈n撤s辿g辿vel
  • #34: Szemantikus v辿lem辿nyorient叩ci坦 meg叩llap鱈t叩sa PMI m坦dszerrel A m坦dszer akkor alkalmazhat坦, ha egyszerre t旦bb dokumentumot kell elemezni. Ekkor az algoritmus a v辿lem辿nysz坦t叩rakban nem szerepl, ismeretlen szavakhoz (tokenekhez) pontsz叩mot rendel a vel端k egy端tt gyakran elfordul坦 sz坦t叩ri tokenek pontsz叩mainak k旦z辿p辿rt辿ke alapj叩n. A sz坦t叩rakban nem szerepl tokenek 辿s a sz坦t叩ri tokenek k旦z旦tt a pontonk辿nti k旦lcs旦n旦s inform叩ci坦 sz叩m鱈t叩s叩val (PMI)[1] meghat叩rozhat坦, hogy mely sz坦t叩ri elemekkel fordulnak gyakran el egy dokumentumban az ismeretlen tokenek. A gyakran kapcsol坦d坦 tokenek pontsz叩mainak PMI 辿rt辿k alap炭 s炭lyoz叩s叩val pedig becs端lhet az ismeretlen alak pontsz叩ma. Ezzel a m坦dszerrel ak叩r egy teljesen adapt鱈v megold叩s is 辿p鱈thet, amennyiben az 炭j tokeneket 辿s a becs端lt pontsz叩mokat a rendszer ezut叩n elmenti a sz坦t叩r叩ba. A PMI 辿rt辿k a vizsg叩lt dokumentumhalmaz tokenelfordul叩sai alapj叩n sz叩m鱈that坦 a k旦vetkez m坦don: , azaz a 辿s b egy端ttelfordul叩si val坦sz鱈n撤s辿g辿t el kell osztani a elfordul叩si 辿s b elfordul叩si val坦sz鱈n撤s辿g辿vel. Szemantikus v辿lem辿nyorient叩ci坦 meg叩llap鱈t叩sa szinonima sz坦t叩rral Az ismeretlen tokenek polarit叩sa m叩s m坦don is becs端lhet. Egyes m坦dszerek kieg辿sz鱈t szinonimasz坦t叩rokat alkalmaznak a sz坦token alap炭 pontsz叩m sz坦t叩raik mell辿. gy a pontsz叩m sz坦t叩rban nem szerepl szavak pontsz叩ma becs端lhet azon szinonim叩inak pontsz叩mai alapj叩n, melyek szerepelnek a sz坦t叩rban. [1] Pointwise Mutual Information
  • #36: Smiley-k k辿rd辿sek