際際滷

際際滷Share a Scribd company logo
Microsegment Corpus
(Hungarian - Magyar)
       01.32

      2011.02.01
Korpusz
    http://hu.wikipedia.org/wiki/Korpusz:

        A korpusz nyelv辿szeti szakkifejez辿s, jelent辿se egy adott nyelv adott idpontban haszn叩lt v叩ltozat叩ra vonatkoz坦
         sz旦vegek 旦sszess辿ge.
        A sz坦 a latin corpus (test) sz坦b坦l ered, 辿s a "nyelvi test", nyelvi 旦sszess辿g 辿rtelemben haszn叩lt.
        A nyelvi korpusz felhaszn叩l叩saira lehet p辿lda sz坦t叩rak l辿trehoz叩sa, nyelv jellegzetess辿geinek elemz辿se.
        L辿trehoz叩sakor fontos szempont, hogy lehets辿g szerint ne keveredjen benne az adott nyelv elt辿r idszakokban
         haszn叩lt (炭j, 辿s r辿gies) form叩ja.
        Az informatika terjed辿s辿vel egyre k旦nnyebb igen nagy mennyis辿g撤, term辿szetes sz旦veget tartalmaz坦 korpuszok
         l辿trehoz叩sa, ilyen c辿lra haszn叩lhat坦ak p辿ld叩ul a digitaliz叩lt lexikonok, a Wikip辿dia, de p辿ld叩ul az internetes weblapok
         egy adott k旦re is (pl. sajt坦).


    http://corpus.nytud.hu/mnsz/:
        A korpusz t辿nylegesen elfordul坦 鱈rott, vagy lejegyzett besz辿lt nyelvi adatok gy撤jtem辿nye. A sz旦vegeket valamilyen
         szempont szerint v叩logatj叩k 辿s rendezik. Nem felt辿tlen端l eg辿sz sz旦vegeket tartalmaz, 辿s nem csak t叩rh叩za a
         sz旦vegeknek, hanem tartalmazza azok bibliogr叩fiai adatait, bejel旦li a szerkezeti egys辿geket (bekezd辿s, mondat). Az
         MNSZ a mai magyar 鱈rott k旦znyelv 叩ltal叩nos c辿l炭 reprezentat鱈v korpusza k鱈v叩n lenni.




2011.02.01.                                     www.microsegment.hu                                                                2
Microsegment Corpus
    Els (legfontosabb) forr叩s:
        Webcorpus:

         http://mokk.bme.hu/resources/webcorpus/

         Hal叩csy P辿ter, Kornai Andr叩s, N辿meth L叩szl坦, Rung Andr叩s,
         Szakad叩t Istv叩n, Tr坦n Viktor Creating open language resources for
         Hungarian In Proceedings of the 4th international conference on
         Language Resources and Evaluation (LREC2004), 2004 ps pdf

         Kornai, A, Hal叩csy, P, Nagy, V, Oravecz, Cs, Tr坦n, V, and Varga, D (2006). Web-based frequency dictionaries for medium density languages In: Proceedings of the 2nd
         International Workshop on Web as Corpus,
         edited by Adam Kilgarriff, Marco Baroni ACL-06, pages 1--9. pdf


    M叩sodik legfontosabb forr叩s
      Magyar wikipedia sz旦vegei (2010. prilis)

    Tov叩bbi forr叩sok
      www.fn.hu
      www.hvg.hu
      www.mti.hu

    Forr叩s jel旦ltek
      Minden nyilv叩nosan hozz叩f辿rhet digit叩lis magyar nyelv撤 forr叩s




2011.02.01.                                                      www.microsegment.hu                                                                                       3
Hogyan k辿sz端l / Mire haszn叩ljuk
 Forr叩s sz旦veg
                                                                         Ut坦lagos
                        Feldolgoz叩s                                      Feldolgoz叩s
                        Helyes鱈r叩s ellenrz辿s                            Statisztik叩k
 Jelenleg t旦bb fajta     tokeniz叩l叩s 辿s                   T叩rol叩s
                         egy辿b
                                                                          Keresztvizsg叩latok
 (sz旦veg, sz坦t叩r) 辿s
 n辿h叩ny form叩tum炭        feldolgoz叩s                                      Auto-Tag-el辿s
 (txt, pdf, cvs, stb.)
 fogad叩s叩ra k辿pes


                                                 Felhaszn叩l叩s


                                  Sz旦vegb叩ny叩szati projektekhez
                                  Adattiszt鱈t叩s (Data Improver)
                                  Egy辿b elemz辿sek (k旦z旦ss辿gi elemz辿sek,
                                  tematiz叩l叩s, szinonim叩k, trendek)
                                  Saj叩t tud叩st叩runk keresmotorja



2011.02.01.                             www.microsegment.hu                                 4
Tokenek forr叩sonk辿nti darabsz叩ma
Microsegment Corpus 01.00 (alap)




2011.02.01.                   www.microsegment.hu   5
Microsegment Corpus bv鱈t辿se

Verzi坦        D叩tum         Tartalom                             Strukt炭ra            M坦dszer

                            Webcorpus, Wiki c鱈mszavak, BM
                            utcanevek, Tr叩g叩r szavak,
01.00         2010.04.10.   K旦zter端letek, Magyar keresztnevek,   Lemma                Hunspell alkalmaz叩sa
                            Magyar telep端l辿snevek, Magyar
                            vezet辿knevek

                            Wiki Hun 2010.04,
01.15         2010.08.10.   eBooks,
                            www.mti.hu 2004-2010
                                                                 Le鱈r坦 statisztik叩k
                            fn.hu (1)                            tokenekre 辿s
01.20         2010.10.10                                                              Huntoken alkalmaz叩sa
                            Amerikai keresztnevek                lemm叩kra
                                                                 NER
01.30         2010.10.20    Sz叩mnevek (arab 辿s r坦mai)            Auto-Tag-ek




2011.02.01.                      www.microsegment.hu                                                         6
Tokenek forr叩sonk辿nti keresztelfordul叩sai
Microsegment Corpus 01.30 (Elz kiad叩s)

                 Microsegment   Arab          R坦mai          Amerikai ni        Amerikai f辿rfi                                                          Wiki Hun -
                                                                                                   eBooks            www.fn.hu         www.mti.hu
                 Corpus 1.0     sz叩mok        sz叩mok         keresztnevek        keresztnevek                                                            2010.04

Microsegment
Corpus 1.0          5 600 791        713               160           1 252                   484        864 561            72 757            75 303           929 806

Arab sz叩mok
                          713      2 999               387                  50               242              387                 50                77                242

R坦mai sz叩mok
                          160        387           3 999                     3         468 783                100                 30                51                163

Amerikai ni
keresztnevek            1 252            50              3           4 275                   331             1 923               328            484              2 279

Amerikai f辿rfi
keresztnevek              484        242         468 783               331                1 219              1 022               281            398              1 096

eBooks
                      864 561        387               100           1 923                1 022       1 308 703            59 026            61 970           468 783

fn.hu (1)
                       72 757            50             30             328                   281            59 026         79 283            31 191             64 486

www.mti.hu
                       75 303            77             51             484                   398            61 970         31 191            80 773             69 541

Wiki Hun
2010.04               929 806        242               163           2 279                1 096         468 783            64 486            69 541         1 131 283




2011.02.01.                                              www.microsegment.hu                                                                                      7
j tokenek forr叩sonk辿nti darabsz叩mai
Microsegment Corpus 01.30 (Elz kiad叩s)
                               D叩tum                 j token (db)


Microsegment Corpus 1.0        2010.04.10                            5 600 791

Wiki Hun - 2010.04             2010.08.10                              201 477

eBooks                         2010.08.27                              389 673

mti.hu                         2010.08.31                                2 592

Amerikai f辿rfi keresztnevek    2010.10.10                                 113

Amerikai ni keresztnevek      2010.10.10                                1 851

fn.hu                          2010.10.17                                4 584

Arab sz叩mok                    2010.10.20                                2 207

R坦mai sz叩mok                   2010.10.20                                3 770


                     5600791
 10 000 000
  1 000 000                                 389673
                                 201477
    100 000
                                                               2592                                        4584                      3770
         10 000                                                                               1851                       2207
          1 000
                                                                                 113
           100
            10
              1
                  Microsegment Wiki Hun -   eBooks            mti.hu        Amerikai ffi   Amerikai ni   fn.hu (1)   arab sz叩mok r坦mai sz叩mok
                   corpus 1.0   2010.04                                       nevek          nevek


2011.02.01.                                          www.microsegment.hu                                                                    8
Microsegment Corpus bv鱈t辿se

Verzi坦        D叩tum         Tartalom                             Strukt炭ra            M坦dszer

                            Webcorpus, Wiki c鱈mszavak, BM
                            utcanevek, Tr叩g叩r szavak,
01.00         2010.04.10.   K旦zter端letek, Magyar keresztnevek,   Lemma                Hunspell alkalmaz叩sa
                            Magyar telep端l辿snevek, Magyar
                            vezet辿knevek

                            Wiki Hun 2010.04,
01.15         2010.08.10.   eBooks,
                            www.mti.hu 2004-2010
                                                                 Le鱈r坦 statisztik叩k
                            fn.hu (1)                            tokenekre 辿s
01.20         2010.10.10                                                              Huntoken alkalmaz叩sa
                            Amerikai keresztnevek                lemm叩kra
                                                                 NER
01.30         2010.10.20    Sz叩mnevek (arab 辿s r坦mai)            Auto-Tag-ek

01.31         2010.11.20    fn.hu (2)

01.32         2011.01.06    fn.hu (3)




2011.02.01.                      www.microsegment.hu                                                         9
Microsegment Corpus 01.32
Tokenek forr叩sonk辿nti keresztelfordul叩sai

                           Microsegment Corpus 1.30           fn.hu (2)                fn.hu (3)


Microsegment Corpus 1.30                  6 207 058             67 044                  157 100


fn.hu (2)                                    67 044             70 705                   48 227


fn.hu (3)                                   157 100             48 227                  172 311




j tokenek forr叩sonk辿nti elfordul叩sai
                                                                                   10 000 000          6 207 058

                                                                                    1 000 000
                             D叩tum                    j token (db)
                                                                                     100 000
Microsegment Corpus 1.30    2010.10.20                                6 207 058                                                           14 631
                                                                                      10 000                                  3 661
fn.hu (1)                   2010.11.20                                     3 661
                                                                                       1 000
fn.hu (2)                   2011.01.06                                    14 631
                                                                                         100


                                                                                          10


                                                                                           1
                                                                                                   Microsegment Corpus 1.30   fn.hu (2)   fn.hu (3)




2011.02.01.                                           www.microsegment.hu                                                                         10
j tokenek forr叩sonk辿nti darabsz叩mai
Microsegment Corpus 01.32

                     D叩tum        j token (db)     10 000 000   5 600 791


Microsegment
                     2010.04.10         5 600 791
Corpus 1.0                                           1 000 000
                                                                                             389 673
Wiki Hun - 2010.04   2010.08.10          201 477
                                                                                201 477

eBooks               2010.08.27          389 673      100 000

mti.hu               2010.08.31            2 592                                                                                                                                                      14 631

Amerikai f辿rfi                                         10 000
                     2010.10.10              113                                                                                                 4 584                        3 770        3 661
keresztnevek                                                                                           2 592                                                   2 207
                                                                                                                                    1 851
Amerikai ni
                     2010.10.10            1 851
keresztnevek                                            1 000

fn.hu (1)            2010.10.17            4 584
                                                                                                                    113
                                                          100
Arab sz叩mok          2010.10.20            2 207

R坦mai sz叩mok         2010.10.20            3 770
                                                           10
fn.hu (2)            2010.11.20            3 661

fn.hu (3)            2011.01.06           14 631
                                                            1
                                                                 Microsegment   Wiki Hun -    eBooks   mti.hu   Amerikai f辿rfi    Amerikai ni   fn.hu (1)   Arab sz叩mok   R坦mai sz叩mok   fn.hu (2)   fn.hu (3)
                                                                  Corpus 1.0    2010.04                         keresztnevek     keresztnevek




2011.02.01.                                           www.microsegment.hu                                                                                                                       11
Tokenek kezdbet撤nk辿nti darabsz叩ma (6 225 350 db)
           Lemm叩k kezdbet撤nk辿nti darabsz叩ma (1 352 386 db)
          A 3,75%                                    A 3,75%                                                                      A 3,63%                                  A 3,63%
           1,75%                   1,75%                                                                                         1,80%                   1,80%
          B 5,73%                                                      B 5,73%                                                    B 5,78%                                                    B 5,78%
     C, CS 2,98%                               C, CS 2,98%                                                                   C, CS 3,10%                              C, CS 3,10%
D, DZ, DZS 2,21%                       D, DZ, DZS 2,21%                                                                 D, DZ, DZS 2,07%                     D, DZ, DZS 2,07%
          E 4,50%                                           E 4,50%                                                               E 4,02%                                     E 4,02%
           1,39%                1,39%                                                                                            1,40%               1,40%
          F 6,86%                                                              F 6,86%                                            F 7,09%                                                              F 7,09%
     G, GY 3,03%                               G, GY 3,03%                                                                   G, GY 3,17%                               G, GY 3,17%
          H 5,07%                                                H 5,07%                                                          H 5,02%                                              H 5,02%
           I 2,28%                      I 2,28%                                                                                    I 2,16%                    I 2,16%
            0,24%   0,24%                                                                                                         0,25%   0,25%
          J 1,42%               J 1,42%                                                                                           J 1,30%             J 1,30%
         K 10,18%                                                                                          K 10,18%              K 10,30%                                                                                       K 10,30%
      L, LY 4,20%                                        L, LY 4,20%                                                          L, LY 4,01%                                     L, LY 4,01%
          M 7,26%                                                                  M 7,26%                                        M 6,78%                                                            M 6,78%
     N, NY 2,54%                           N, NY 2,54%                                                                       N, NY 2,43%                         N, NY 2,43%
          O 1,39%               O 1,39%                                                                                           O 1,40%              O 1,40%
           0,23%    0,23%                                                                                                        0,29%     0,29%
           1,16%              1,16%                                                                                              1,15%             1,15%
           0,23%    0,23%                                                                                                        0,25%    0,25%
          P 4,43%                                          P 4,43%                                                                P 4,73%                                           P 4,73%
          Q 0,02% Q 0,02%                                                                                                         Q 0,00% Q 0,00%
          R 3,48%                                  R 3,48%                                                                        R 3,51%                                 R 3,51%
     S, SZ 8,54%                                                                             S, SZ 8,54%                     S, SZ 8,71%                                                                            S, SZ 8,71%
     T, TY 7,10%                                                                 T, TY 7,10%                                 T, TY 7,57%                                                                   T, TY 7,57%
          U 0,53%       U 0,53%                                                                                                   U 0,48%      U 0,48%
           0,45%       0,45%                                                                                                     0,49%       0,49%
           0,64%         0,64%                                                                                                   0,63%        0,63%
          徹 0,08% 徹 0,08%                                                                                                         徹 0,10% 徹 0,10%
          V 5,03%                                                V 5,03%                                                          V 5,21%                                               V 5,21%
         W 0,22%    W 0,22%                                                                                                      W 0,12% W 0,12%
          X 0,01% X 0,01%                                                                                                         X 0,00% X 0,00%
          Y 0,02% Y 0,02%                                                                                                         Y 0,00% Y 0,00%
     Z, ZS 1,03%            Z, ZS 1,03%                                                                                      Z, ZS 1,05%            Z, ZS 1,05%

                 0         100 000       200 000       300 000       400 000      500 000       600 000       700 000                    0        20 000      40 000      60 000      80 000      100 000     120 000     140 000     160 000




           2011.02.01.                                                                            www.microsegment.hu                                                                                                               12
A leggyakoribb lemm叩k
     Sorrend         Lemma    Elfordul叩s (db)        Sorrend          Lemma   Elfordul叩s (db)        Sorrend         Lemma    Elfordul叩s (db)
1              辿n            858                 34             nyelv          324                67             m辿ret         279
2              ezer          717                 35             nap            319                68             sz叩m          277
3              egy           645                 36             gyermek        318                69             叩ll           277
4              h叩rom         540                 37             炭t             316                70             辿rt辿k         275
5              n辿gy          520                 38             t叩rs           313                71             falu          275
6              l叩b           491                 39             kilenc         312                72             sz端l         272
7              旦t            491                 40             ember          311                73             rokon         271
8              maga          471                 41             apa            309                74             isten         271
9              辿ves          468                 42             sok            308                75             eld          271
10             hat           462                 43             kor            308                76             l叩ny          271
11             h辿t           445                 44             f旦ld           306                77             m撤            269
12             kett         437                 45             tan叩r          306                78             n            269
13             oldal         411                 46             testv辿r        305                79             tesz          267
14             sz叩z          392                 47             坦ra            304                80             orsz叩g        266
15             j坦            380                 48             fal            303                81             vil叩g         265
16             kar           376                 49             csapat         302                82             csal叩d        265
17             sz鱈v          359                 50             anya           302                83             jegy          265
18             nyolc         358                 51             sejt           299                84             sor           264
19             辿v            356                 52             lev辿l          295                85             ker辿k         264
20             bar叩t         353                 53             szint          294                86             c辿l           264
21             fej           344                 54             v叩ros          294                87             hely          263
22             t鱈z           344                 55             叩llat          294                88             r辿sz          263
23             fog           344                 56             叩r             292                89             l辿p辿s         262
24             milli坦        342                 57             anyag          291                90             arc           262
25             sz坦           342                 58             v叩r            288                91             gyerek        261
26             h叩z           339                 59             k辿z            287                92             n辿v           261
27             nagy          336                 60             辿r             286                93             炭r            261
28             szem          334                 61             辿l             285                94             adat          260
29             szomsz辿d      330                 62             saj叩t          285                95             nyom          259
30             mag           330                 63             szer           284                96             munka         259
31             tag           326                 64             l辿lek          284                97             nemzet        259
32             sz鱈n          326                 65             atya           280                98             端gy           259
33             t辿r           324                 66             test           279                99             mondat        258



2011.02.01.                                                     www.microsegment.hu                                                                13
悪辿姻糸辿壊艶一

          csaba.kiss[at]microsegment.hu




2011.02.01.         www.microsegment.hu   14

More Related Content

Microsegment corpus 01.32 statistics

  • 1. Microsegment Corpus (Hungarian - Magyar) 01.32 2011.02.01
  • 2. Korpusz http://hu.wikipedia.org/wiki/Korpusz: A korpusz nyelv辿szeti szakkifejez辿s, jelent辿se egy adott nyelv adott idpontban haszn叩lt v叩ltozat叩ra vonatkoz坦 sz旦vegek 旦sszess辿ge. A sz坦 a latin corpus (test) sz坦b坦l ered, 辿s a "nyelvi test", nyelvi 旦sszess辿g 辿rtelemben haszn叩lt. A nyelvi korpusz felhaszn叩l叩saira lehet p辿lda sz坦t叩rak l辿trehoz叩sa, nyelv jellegzetess辿geinek elemz辿se. L辿trehoz叩sakor fontos szempont, hogy lehets辿g szerint ne keveredjen benne az adott nyelv elt辿r idszakokban haszn叩lt (炭j, 辿s r辿gies) form叩ja. Az informatika terjed辿s辿vel egyre k旦nnyebb igen nagy mennyis辿g撤, term辿szetes sz旦veget tartalmaz坦 korpuszok l辿trehoz叩sa, ilyen c辿lra haszn叩lhat坦ak p辿ld叩ul a digitaliz叩lt lexikonok, a Wikip辿dia, de p辿ld叩ul az internetes weblapok egy adott k旦re is (pl. sajt坦). http://corpus.nytud.hu/mnsz/: A korpusz t辿nylegesen elfordul坦 鱈rott, vagy lejegyzett besz辿lt nyelvi adatok gy撤jtem辿nye. A sz旦vegeket valamilyen szempont szerint v叩logatj叩k 辿s rendezik. Nem felt辿tlen端l eg辿sz sz旦vegeket tartalmaz, 辿s nem csak t叩rh叩za a sz旦vegeknek, hanem tartalmazza azok bibliogr叩fiai adatait, bejel旦li a szerkezeti egys辿geket (bekezd辿s, mondat). Az MNSZ a mai magyar 鱈rott k旦znyelv 叩ltal叩nos c辿l炭 reprezentat鱈v korpusza k鱈v叩n lenni. 2011.02.01. www.microsegment.hu 2
  • 3. Microsegment Corpus Els (legfontosabb) forr叩s: Webcorpus: http://mokk.bme.hu/resources/webcorpus/ Hal叩csy P辿ter, Kornai Andr叩s, N辿meth L叩szl坦, Rung Andr叩s, Szakad叩t Istv叩n, Tr坦n Viktor Creating open language resources for Hungarian In Proceedings of the 4th international conference on Language Resources and Evaluation (LREC2004), 2004 ps pdf Kornai, A, Hal叩csy, P, Nagy, V, Oravecz, Cs, Tr坦n, V, and Varga, D (2006). Web-based frequency dictionaries for medium density languages In: Proceedings of the 2nd International Workshop on Web as Corpus, edited by Adam Kilgarriff, Marco Baroni ACL-06, pages 1--9. pdf M叩sodik legfontosabb forr叩s Magyar wikipedia sz旦vegei (2010. prilis) Tov叩bbi forr叩sok www.fn.hu www.hvg.hu www.mti.hu Forr叩s jel旦ltek Minden nyilv叩nosan hozz叩f辿rhet digit叩lis magyar nyelv撤 forr叩s 2011.02.01. www.microsegment.hu 3
  • 4. Hogyan k辿sz端l / Mire haszn叩ljuk Forr叩s sz旦veg Ut坦lagos Feldolgoz叩s Feldolgoz叩s Helyes鱈r叩s ellenrz辿s Statisztik叩k Jelenleg t旦bb fajta tokeniz叩l叩s 辿s T叩rol叩s egy辿b Keresztvizsg叩latok (sz旦veg, sz坦t叩r) 辿s n辿h叩ny form叩tum炭 feldolgoz叩s Auto-Tag-el辿s (txt, pdf, cvs, stb.) fogad叩s叩ra k辿pes Felhaszn叩l叩s Sz旦vegb叩ny叩szati projektekhez Adattiszt鱈t叩s (Data Improver) Egy辿b elemz辿sek (k旦z旦ss辿gi elemz辿sek, tematiz叩l叩s, szinonim叩k, trendek) Saj叩t tud叩st叩runk keresmotorja 2011.02.01. www.microsegment.hu 4
  • 5. Tokenek forr叩sonk辿nti darabsz叩ma Microsegment Corpus 01.00 (alap) 2011.02.01. www.microsegment.hu 5
  • 6. Microsegment Corpus bv鱈t辿se Verzi坦 D叩tum Tartalom Strukt炭ra M坦dszer Webcorpus, Wiki c鱈mszavak, BM utcanevek, Tr叩g叩r szavak, 01.00 2010.04.10. K旦zter端letek, Magyar keresztnevek, Lemma Hunspell alkalmaz叩sa Magyar telep端l辿snevek, Magyar vezet辿knevek Wiki Hun 2010.04, 01.15 2010.08.10. eBooks, www.mti.hu 2004-2010 Le鱈r坦 statisztik叩k fn.hu (1) tokenekre 辿s 01.20 2010.10.10 Huntoken alkalmaz叩sa Amerikai keresztnevek lemm叩kra NER 01.30 2010.10.20 Sz叩mnevek (arab 辿s r坦mai) Auto-Tag-ek 2011.02.01. www.microsegment.hu 6
  • 7. Tokenek forr叩sonk辿nti keresztelfordul叩sai Microsegment Corpus 01.30 (Elz kiad叩s) Microsegment Arab R坦mai Amerikai ni Amerikai f辿rfi Wiki Hun - eBooks www.fn.hu www.mti.hu Corpus 1.0 sz叩mok sz叩mok keresztnevek keresztnevek 2010.04 Microsegment Corpus 1.0 5 600 791 713 160 1 252 484 864 561 72 757 75 303 929 806 Arab sz叩mok 713 2 999 387 50 242 387 50 77 242 R坦mai sz叩mok 160 387 3 999 3 468 783 100 30 51 163 Amerikai ni keresztnevek 1 252 50 3 4 275 331 1 923 328 484 2 279 Amerikai f辿rfi keresztnevek 484 242 468 783 331 1 219 1 022 281 398 1 096 eBooks 864 561 387 100 1 923 1 022 1 308 703 59 026 61 970 468 783 fn.hu (1) 72 757 50 30 328 281 59 026 79 283 31 191 64 486 www.mti.hu 75 303 77 51 484 398 61 970 31 191 80 773 69 541 Wiki Hun 2010.04 929 806 242 163 2 279 1 096 468 783 64 486 69 541 1 131 283 2011.02.01. www.microsegment.hu 7
  • 8. j tokenek forr叩sonk辿nti darabsz叩mai Microsegment Corpus 01.30 (Elz kiad叩s) D叩tum j token (db) Microsegment Corpus 1.0 2010.04.10 5 600 791 Wiki Hun - 2010.04 2010.08.10 201 477 eBooks 2010.08.27 389 673 mti.hu 2010.08.31 2 592 Amerikai f辿rfi keresztnevek 2010.10.10 113 Amerikai ni keresztnevek 2010.10.10 1 851 fn.hu 2010.10.17 4 584 Arab sz叩mok 2010.10.20 2 207 R坦mai sz叩mok 2010.10.20 3 770 5600791 10 000 000 1 000 000 389673 201477 100 000 2592 4584 3770 10 000 1851 2207 1 000 113 100 10 1 Microsegment Wiki Hun - eBooks mti.hu Amerikai ffi Amerikai ni fn.hu (1) arab sz叩mok r坦mai sz叩mok corpus 1.0 2010.04 nevek nevek 2011.02.01. www.microsegment.hu 8
  • 9. Microsegment Corpus bv鱈t辿se Verzi坦 D叩tum Tartalom Strukt炭ra M坦dszer Webcorpus, Wiki c鱈mszavak, BM utcanevek, Tr叩g叩r szavak, 01.00 2010.04.10. K旦zter端letek, Magyar keresztnevek, Lemma Hunspell alkalmaz叩sa Magyar telep端l辿snevek, Magyar vezet辿knevek Wiki Hun 2010.04, 01.15 2010.08.10. eBooks, www.mti.hu 2004-2010 Le鱈r坦 statisztik叩k fn.hu (1) tokenekre 辿s 01.20 2010.10.10 Huntoken alkalmaz叩sa Amerikai keresztnevek lemm叩kra NER 01.30 2010.10.20 Sz叩mnevek (arab 辿s r坦mai) Auto-Tag-ek 01.31 2010.11.20 fn.hu (2) 01.32 2011.01.06 fn.hu (3) 2011.02.01. www.microsegment.hu 9
  • 10. Microsegment Corpus 01.32 Tokenek forr叩sonk辿nti keresztelfordul叩sai Microsegment Corpus 1.30 fn.hu (2) fn.hu (3) Microsegment Corpus 1.30 6 207 058 67 044 157 100 fn.hu (2) 67 044 70 705 48 227 fn.hu (3) 157 100 48 227 172 311 j tokenek forr叩sonk辿nti elfordul叩sai 10 000 000 6 207 058 1 000 000 D叩tum j token (db) 100 000 Microsegment Corpus 1.30 2010.10.20 6 207 058 14 631 10 000 3 661 fn.hu (1) 2010.11.20 3 661 1 000 fn.hu (2) 2011.01.06 14 631 100 10 1 Microsegment Corpus 1.30 fn.hu (2) fn.hu (3) 2011.02.01. www.microsegment.hu 10
  • 11. j tokenek forr叩sonk辿nti darabsz叩mai Microsegment Corpus 01.32 D叩tum j token (db) 10 000 000 5 600 791 Microsegment 2010.04.10 5 600 791 Corpus 1.0 1 000 000 389 673 Wiki Hun - 2010.04 2010.08.10 201 477 201 477 eBooks 2010.08.27 389 673 100 000 mti.hu 2010.08.31 2 592 14 631 Amerikai f辿rfi 10 000 2010.10.10 113 4 584 3 770 3 661 keresztnevek 2 592 2 207 1 851 Amerikai ni 2010.10.10 1 851 keresztnevek 1 000 fn.hu (1) 2010.10.17 4 584 113 100 Arab sz叩mok 2010.10.20 2 207 R坦mai sz叩mok 2010.10.20 3 770 10 fn.hu (2) 2010.11.20 3 661 fn.hu (3) 2011.01.06 14 631 1 Microsegment Wiki Hun - eBooks mti.hu Amerikai f辿rfi Amerikai ni fn.hu (1) Arab sz叩mok R坦mai sz叩mok fn.hu (2) fn.hu (3) Corpus 1.0 2010.04 keresztnevek keresztnevek 2011.02.01. www.microsegment.hu 11
  • 12. Tokenek kezdbet撤nk辿nti darabsz叩ma (6 225 350 db) Lemm叩k kezdbet撤nk辿nti darabsz叩ma (1 352 386 db) A 3,75% A 3,75% A 3,63% A 3,63% 1,75% 1,75% 1,80% 1,80% B 5,73% B 5,73% B 5,78% B 5,78% C, CS 2,98% C, CS 2,98% C, CS 3,10% C, CS 3,10% D, DZ, DZS 2,21% D, DZ, DZS 2,21% D, DZ, DZS 2,07% D, DZ, DZS 2,07% E 4,50% E 4,50% E 4,02% E 4,02% 1,39% 1,39% 1,40% 1,40% F 6,86% F 6,86% F 7,09% F 7,09% G, GY 3,03% G, GY 3,03% G, GY 3,17% G, GY 3,17% H 5,07% H 5,07% H 5,02% H 5,02% I 2,28% I 2,28% I 2,16% I 2,16% 0,24% 0,24% 0,25% 0,25% J 1,42% J 1,42% J 1,30% J 1,30% K 10,18% K 10,18% K 10,30% K 10,30% L, LY 4,20% L, LY 4,20% L, LY 4,01% L, LY 4,01% M 7,26% M 7,26% M 6,78% M 6,78% N, NY 2,54% N, NY 2,54% N, NY 2,43% N, NY 2,43% O 1,39% O 1,39% O 1,40% O 1,40% 0,23% 0,23% 0,29% 0,29% 1,16% 1,16% 1,15% 1,15% 0,23% 0,23% 0,25% 0,25% P 4,43% P 4,43% P 4,73% P 4,73% Q 0,02% Q 0,02% Q 0,00% Q 0,00% R 3,48% R 3,48% R 3,51% R 3,51% S, SZ 8,54% S, SZ 8,54% S, SZ 8,71% S, SZ 8,71% T, TY 7,10% T, TY 7,10% T, TY 7,57% T, TY 7,57% U 0,53% U 0,53% U 0,48% U 0,48% 0,45% 0,45% 0,49% 0,49% 0,64% 0,64% 0,63% 0,63% 徹 0,08% 徹 0,08% 徹 0,10% 徹 0,10% V 5,03% V 5,03% V 5,21% V 5,21% W 0,22% W 0,22% W 0,12% W 0,12% X 0,01% X 0,01% X 0,00% X 0,00% Y 0,02% Y 0,02% Y 0,00% Y 0,00% Z, ZS 1,03% Z, ZS 1,03% Z, ZS 1,05% Z, ZS 1,05% 0 100 000 200 000 300 000 400 000 500 000 600 000 700 000 0 20 000 40 000 60 000 80 000 100 000 120 000 140 000 160 000 2011.02.01. www.microsegment.hu 12
  • 13. A leggyakoribb lemm叩k Sorrend Lemma Elfordul叩s (db) Sorrend Lemma Elfordul叩s (db) Sorrend Lemma Elfordul叩s (db) 1 辿n 858 34 nyelv 324 67 m辿ret 279 2 ezer 717 35 nap 319 68 sz叩m 277 3 egy 645 36 gyermek 318 69 叩ll 277 4 h叩rom 540 37 炭t 316 70 辿rt辿k 275 5 n辿gy 520 38 t叩rs 313 71 falu 275 6 l叩b 491 39 kilenc 312 72 sz端l 272 7 旦t 491 40 ember 311 73 rokon 271 8 maga 471 41 apa 309 74 isten 271 9 辿ves 468 42 sok 308 75 eld 271 10 hat 462 43 kor 308 76 l叩ny 271 11 h辿t 445 44 f旦ld 306 77 m撤 269 12 kett 437 45 tan叩r 306 78 n 269 13 oldal 411 46 testv辿r 305 79 tesz 267 14 sz叩z 392 47 坦ra 304 80 orsz叩g 266 15 j坦 380 48 fal 303 81 vil叩g 265 16 kar 376 49 csapat 302 82 csal叩d 265 17 sz鱈v 359 50 anya 302 83 jegy 265 18 nyolc 358 51 sejt 299 84 sor 264 19 辿v 356 52 lev辿l 295 85 ker辿k 264 20 bar叩t 353 53 szint 294 86 c辿l 264 21 fej 344 54 v叩ros 294 87 hely 263 22 t鱈z 344 55 叩llat 294 88 r辿sz 263 23 fog 344 56 叩r 292 89 l辿p辿s 262 24 milli坦 342 57 anyag 291 90 arc 262 25 sz坦 342 58 v叩r 288 91 gyerek 261 26 h叩z 339 59 k辿z 287 92 n辿v 261 27 nagy 336 60 辿r 286 93 炭r 261 28 szem 334 61 辿l 285 94 adat 260 29 szomsz辿d 330 62 saj叩t 285 95 nyom 259 30 mag 330 63 szer 284 96 munka 259 31 tag 326 64 l辿lek 284 97 nemzet 259 32 sz鱈n 326 65 atya 280 98 端gy 259 33 t辿r 324 66 test 279 99 mondat 258 2011.02.01. www.microsegment.hu 13
  • 14. 悪辿姻糸辿壊艶一 csaba.kiss[at]microsegment.hu 2011.02.01. www.microsegment.hu 14