2. Korpusz
http://hu.wikipedia.org/wiki/Korpusz:
A korpusz nyelv辿szeti szakkifejez辿s, jelent辿se egy adott nyelv adott idpontban haszn叩lt v叩ltozat叩ra vonatkoz坦
sz旦vegek 旦sszess辿ge.
A sz坦 a latin corpus (test) sz坦b坦l ered, 辿s a "nyelvi test", nyelvi 旦sszess辿g 辿rtelemben haszn叩lt.
A nyelvi korpusz felhaszn叩l叩saira lehet p辿lda sz坦t叩rak l辿trehoz叩sa, nyelv jellegzetess辿geinek elemz辿se.
L辿trehoz叩sakor fontos szempont, hogy lehets辿g szerint ne keveredjen benne az adott nyelv elt辿r idszakokban
haszn叩lt (炭j, 辿s r辿gies) form叩ja.
Az informatika terjed辿s辿vel egyre k旦nnyebb igen nagy mennyis辿g撤, term辿szetes sz旦veget tartalmaz坦 korpuszok
l辿trehoz叩sa, ilyen c辿lra haszn叩lhat坦ak p辿ld叩ul a digitaliz叩lt lexikonok, a Wikip辿dia, de p辿ld叩ul az internetes weblapok
egy adott k旦re is (pl. sajt坦).
http://corpus.nytud.hu/mnsz/:
A korpusz t辿nylegesen elfordul坦 鱈rott, vagy lejegyzett besz辿lt nyelvi adatok gy撤jtem辿nye. A sz旦vegeket valamilyen
szempont szerint v叩logatj叩k 辿s rendezik. Nem felt辿tlen端l eg辿sz sz旦vegeket tartalmaz, 辿s nem csak t叩rh叩za a
sz旦vegeknek, hanem tartalmazza azok bibliogr叩fiai adatait, bejel旦li a szerkezeti egys辿geket (bekezd辿s, mondat). Az
MNSZ a mai magyar 鱈rott k旦znyelv 叩ltal叩nos c辿l炭 reprezentat鱈v korpusza k鱈v叩n lenni.
2011.02.01. www.microsegment.hu 2
3. Microsegment Corpus
Els (legfontosabb) forr叩s:
Webcorpus:
http://mokk.bme.hu/resources/webcorpus/
Hal叩csy P辿ter, Kornai Andr叩s, N辿meth L叩szl坦, Rung Andr叩s,
Szakad叩t Istv叩n, Tr坦n Viktor Creating open language resources for
Hungarian In Proceedings of the 4th international conference on
Language Resources and Evaluation (LREC2004), 2004 ps pdf
Kornai, A, Hal叩csy, P, Nagy, V, Oravecz, Cs, Tr坦n, V, and Varga, D (2006). Web-based frequency dictionaries for medium density languages In: Proceedings of the 2nd
International Workshop on Web as Corpus,
edited by Adam Kilgarriff, Marco Baroni ACL-06, pages 1--9. pdf
M叩sodik legfontosabb forr叩s
Magyar wikipedia sz旦vegei (2010. prilis)
Tov叩bbi forr叩sok
www.fn.hu
www.hvg.hu
www.mti.hu
Forr叩s jel旦ltek
Minden nyilv叩nosan hozz叩f辿rhet digit叩lis magyar nyelv撤 forr叩s
2011.02.01. www.microsegment.hu 3
11. j tokenek forr叩sonk辿nti darabsz叩mai
Microsegment Corpus 01.32
D叩tum j token (db) 10 000 000 5 600 791
Microsegment
2010.04.10 5 600 791
Corpus 1.0 1 000 000
389 673
Wiki Hun - 2010.04 2010.08.10 201 477
201 477
eBooks 2010.08.27 389 673 100 000
mti.hu 2010.08.31 2 592 14 631
Amerikai f辿rfi 10 000
2010.10.10 113 4 584 3 770 3 661
keresztnevek 2 592 2 207
1 851
Amerikai ni
2010.10.10 1 851
keresztnevek 1 000
fn.hu (1) 2010.10.17 4 584
113
100
Arab sz叩mok 2010.10.20 2 207
R坦mai sz叩mok 2010.10.20 3 770
10
fn.hu (2) 2010.11.20 3 661
fn.hu (3) 2011.01.06 14 631
1
Microsegment Wiki Hun - eBooks mti.hu Amerikai f辿rfi Amerikai ni fn.hu (1) Arab sz叩mok R坦mai sz叩mok fn.hu (2) fn.hu (3)
Corpus 1.0 2010.04 keresztnevek keresztnevek
2011.02.01. www.microsegment.hu 11
12. Tokenek kezdbet撤nk辿nti darabsz叩ma (6 225 350 db)
Lemm叩k kezdbet撤nk辿nti darabsz叩ma (1 352 386 db)
A 3,75% A 3,75% A 3,63% A 3,63%
1,75% 1,75% 1,80% 1,80%
B 5,73% B 5,73% B 5,78% B 5,78%
C, CS 2,98% C, CS 2,98% C, CS 3,10% C, CS 3,10%
D, DZ, DZS 2,21% D, DZ, DZS 2,21% D, DZ, DZS 2,07% D, DZ, DZS 2,07%
E 4,50% E 4,50% E 4,02% E 4,02%
1,39% 1,39% 1,40% 1,40%
F 6,86% F 6,86% F 7,09% F 7,09%
G, GY 3,03% G, GY 3,03% G, GY 3,17% G, GY 3,17%
H 5,07% H 5,07% H 5,02% H 5,02%
I 2,28% I 2,28% I 2,16% I 2,16%
0,24% 0,24% 0,25% 0,25%
J 1,42% J 1,42% J 1,30% J 1,30%
K 10,18% K 10,18% K 10,30% K 10,30%
L, LY 4,20% L, LY 4,20% L, LY 4,01% L, LY 4,01%
M 7,26% M 7,26% M 6,78% M 6,78%
N, NY 2,54% N, NY 2,54% N, NY 2,43% N, NY 2,43%
O 1,39% O 1,39% O 1,40% O 1,40%
0,23% 0,23% 0,29% 0,29%
1,16% 1,16% 1,15% 1,15%
0,23% 0,23% 0,25% 0,25%
P 4,43% P 4,43% P 4,73% P 4,73%
Q 0,02% Q 0,02% Q 0,00% Q 0,00%
R 3,48% R 3,48% R 3,51% R 3,51%
S, SZ 8,54% S, SZ 8,54% S, SZ 8,71% S, SZ 8,71%
T, TY 7,10% T, TY 7,10% T, TY 7,57% T, TY 7,57%
U 0,53% U 0,53% U 0,48% U 0,48%
0,45% 0,45% 0,49% 0,49%
0,64% 0,64% 0,63% 0,63%
徹 0,08% 徹 0,08% 徹 0,10% 徹 0,10%
V 5,03% V 5,03% V 5,21% V 5,21%
W 0,22% W 0,22% W 0,12% W 0,12%
X 0,01% X 0,01% X 0,00% X 0,00%
Y 0,02% Y 0,02% Y 0,00% Y 0,00%
Z, ZS 1,03% Z, ZS 1,03% Z, ZS 1,05% Z, ZS 1,05%
0 100 000 200 000 300 000 400 000 500 000 600 000 700 000 0 20 000 40 000 60 000 80 000 100 000 120 000 140 000 160 000
2011.02.01. www.microsegment.hu 12
13. A leggyakoribb lemm叩k
Sorrend Lemma Elfordul叩s (db) Sorrend Lemma Elfordul叩s (db) Sorrend Lemma Elfordul叩s (db)
1 辿n 858 34 nyelv 324 67 m辿ret 279
2 ezer 717 35 nap 319 68 sz叩m 277
3 egy 645 36 gyermek 318 69 叩ll 277
4 h叩rom 540 37 炭t 316 70 辿rt辿k 275
5 n辿gy 520 38 t叩rs 313 71 falu 275
6 l叩b 491 39 kilenc 312 72 sz端l 272
7 旦t 491 40 ember 311 73 rokon 271
8 maga 471 41 apa 309 74 isten 271
9 辿ves 468 42 sok 308 75 eld 271
10 hat 462 43 kor 308 76 l叩ny 271
11 h辿t 445 44 f旦ld 306 77 m撤 269
12 kett 437 45 tan叩r 306 78 n 269
13 oldal 411 46 testv辿r 305 79 tesz 267
14 sz叩z 392 47 坦ra 304 80 orsz叩g 266
15 j坦 380 48 fal 303 81 vil叩g 265
16 kar 376 49 csapat 302 82 csal叩d 265
17 sz鱈v 359 50 anya 302 83 jegy 265
18 nyolc 358 51 sejt 299 84 sor 264
19 辿v 356 52 lev辿l 295 85 ker辿k 264
20 bar叩t 353 53 szint 294 86 c辿l 264
21 fej 344 54 v叩ros 294 87 hely 263
22 t鱈z 344 55 叩llat 294 88 r辿sz 263
23 fog 344 56 叩r 292 89 l辿p辿s 262
24 milli坦 342 57 anyag 291 90 arc 262
25 sz坦 342 58 v叩r 288 91 gyerek 261
26 h叩z 339 59 k辿z 287 92 n辿v 261
27 nagy 336 60 辿r 286 93 炭r 261
28 szem 334 61 辿l 285 94 adat 260
29 szomsz辿d 330 62 saj叩t 285 95 nyom 259
30 mag 330 63 szer 284 96 munka 259
31 tag 326 64 l辿lek 284 97 nemzet 259
32 sz鱈n 326 65 atya 280 98 端gy 259
33 t辿r 324 66 test 279 99 mondat 258
2011.02.01. www.microsegment.hu 13