2. Bu sunumda Pattern growth yakla脹m脹nn 巽eitli
y旦nleri incelenip, bu algoritma i巽in
verimli stratejilere deinilecektir.
FIM algoritmalar脹 iki kategoride s脹n脹fland脹r脹labilir:
Candidate generate-and-test approach
Pattern growth approach
聴lk yakla脹m脹n eksiklikleri;
Veritaban脹n脹 巽ok kez tarama gereklilii
ok fazla candidate itemset 端retilmesi ihtiyac脹
聴temsetler 巽ok b端y端k olduunda subset kontrol端n端n
maliyet gerektirmesi
3. D: verilmi bir transactional database,
I:itemlar脹n k端mesi olsun.
I daki itemlar脹n herhangi bir kombinasyonu
D de frequent olabilir ve FIM probleminin
arama uzay脹ndand脹r.
Arama uzay脹 s旦zl端ksel s脹ralamada olabilecei
gibi bir aa巽 taraf脹ndan g旦steriliyor olabilir.
Bir itemset in candidate extensionlar脹 p ile
tan脹mlans脹n.
4. M
Mesela;
I={a,b,c,d,e} i巽in Figure 1 de ki arama
uzay脹 aac脹nda "ac" nin candidate extensionlar脹 "d" ve "e" dir, "b"
olamaz 巽端nk端 "b", "c" den 旦nce gelmitir.
5. Patterng growth yakla脹m脹 b旦l-y旦net y旦ntemini
benimser. rnein Figure 1 deki arama uzay脹 5
ayr脹k arama uzay脹na b旦l端nebilir.
a y脹 i巽eren itemsetler
b yi i巽eren a y脹 i巽ermeyen itemsetler
c yi i巽eren a ve b yi i巽ermeyen itemsetler
d yi i巽eren a, b ve c yi i巽ermeyen itemsetler
yaln脹z e yi i巽eren itemsetler
B旦ylelikle database 5 k脹s脹ma b旦l端n端r ve her k脹s脹m
conditional database olarak adland脹r脹l脹r.
6. i iteminin conditional databaseine D聴 dersek, i yi i巽eren
t端m itemsetler baka bir bilgiye ihitya巽 olmaks脹z脹n D聴
taraf脹ndan mining edilebilir. Her conditional database
ayn脹 prosed端r端 takip ederek recursive olarak b旦l端n端r.
Pattern growth algoritmas脹n脹n iki temel ilemi vard脹r.
Frequent itemlar脹 saymak
Yeni conditional databaseler oluturmak
Yeni conditional databaselerin toplam say脹s脹 ve her bir
conditional database in mining maliyeti bir Pattern growth
algoritmas脹n脹n performans脹n脹 etkileyen anahtar
fakt旦rlerdir.
7. Arama uzay脹n脹 b旦ld端端m端zde, t端m itemlar ayn脹
s脹ralama ile s脹ralan脹rlar. Bu s脹ralamaya Item search s脹ras脹
denilmektedir. Bir item 脹n yar脹 arama uzay脹 ondan
sonraki item lar脹 i巽erir, sonrakileriyse i巽eremez.
Literat端rde iki item search s脹ras脹 旦nemlidir.
Statik s旦zdizimsel s脹ralama
Dinamik artan frequency s脹ralama
聴htiyac脹m脹z olan daha k端巽端k bir conditional database
olduundan, artan frequency s脹ralama yaparken en
y端ksek frequency li olan脹 旦ne yerletiririz. B旦ylelikle
frequent extension 巽ok b端y端k olmam脹 olur.
9. Conditional databaselerin saklanmas脹 i巽in farkl脹
veri yap脹lar脹 旦nerilebilir. FP-tree ve AFOPT-tree gibi
algoritmalar aa巽 tabanl脹 yap脹lar脹, Hyperstructure gibi
algoritmalar ise dizi tabanl脹 yap脹lar脹 kullan脹r.
Aa巽 tabanl脹 yap脹lar maliyeti azaltabilirler, 巽端nk端 kopyalanm脹
ilemler bir araya getirilebilir ve farkl脹 ilemler 旦ne eklenerek
paylaabilir. Ancak dataset b端y端kse, maliyet y端kselir.
Dizi tabanl脹 yap脹lar az maliyet gerektirir. Ancak bu yap脹larda farkl脹
ilemler paylaamazlar.
Genel olarak, aa巽 tabanl脹 yap脹lar脹n dense(youn)
databaselerde, dizi tabanl脹 yap脹lar脹nsa sparse(seyrek)
databaselerde kullan脹m脹 uygundur.
10. Database 巽ok k端巽端k olmad脹脹 m端ddet巽e conditional
database oluturma olduk巽a maliyetlidir.
Buna bir alternatif olarak sahte construction g旦sterilir
yani, y端ksek frequently li construction databaselerde
ilemleri g旦steren pointerlar kullanmak.
Buna ramen sahte construction fiziksel construction
kadar etkili deildir. Artan frequent s脹ral脹 itemsetler
h脹zl脹ca alt construction databaseler yapabilir, bu s脹ra
ile birlikte kullan脹l脹脹 zaman bu stratejinin kullan脹l脹
olduu g旦r端lm端t端r.
11. Aac脹n dolama maliyeti yukar脹dan-aa脹ya dolama stratejisi ile
minimuma 巽ekilebilir.
FP-Tree de azalan frequent s脹raya g旦re yap脹l脹r. Dolay脹s脹yla FP-Tree
aa脹dan yukar脹 dolama stratejisini kullan脹r. Ve FP-Tree her node
da parent balant脹 ve node balant脹lar脹na sahiptir.
AFOPT algoritma ise artan frequency kullan脹r, bu y端zden
yukar脹dan aa脹ya dolama stratejisini benimsemitir. Ve
pointerlar eklemeye gerek yoktur.
FP-Treenin burada avantaj脹 azalan frequency s脹ra kullanarak 旦ne
ekleme payla脹m ihtimalini art脹rmas脹 y旦n端yle AFOPT dan daha
kompakt oluudur. AFOPT taraf脹ndan benimsenen artan frequency
s脹ra, aa巽taki tek dallanmalar脹 etkilemektedir. Bu problem AFOPT da
tek dallanmalar脹 saklamak i巽in dizi kullan脹m脹 ile hafifletilmitir.
13. Conditional database i巽in 3 farkl脹 yap脹
kullan脹l脹r; array, AFOPT-tree ve buckets
Dinamik artan frequenti benimser.
Conditional databaseler her levelda fiziksel
olarak yap脹lan脹r.
14. Buckets teknii uygun ve farkl脹 frequenty itemlar脹n say脹s脹 10
civar脹ndayken etkilidir. Aa巽 yap脹s脹 dense database de, dizi yap脹s脹
ise sparse database de verimli olur. Hangi yap脹y脹 se巽memiz
gerektiini aa脹daki parametreler, kullanarak belirleyebiliriz;
Sadece top-bucket_size frequent itemlar脹 i巽eren itemsetler
kullan脹lan bucketlar脹 sayar.
Eer minimum eikdeeri >tree_min_sup
veya
b端t端n frequent itemlar脹n ortalamas脹 > tree_avg_sup ise
geriye kalan t端m conditional databaseler AFOPT-Tree kullanarak
g旦sterilir.
Aksi halde sonraki tree_alphabet_size 脹n frequenti y端ksek
itemlar脹n脹n conditional databaseleri AFOPT-Tree kullanarak
g旦sterilir ve geriye kalan conditional databaselerse dizi kullanarak
g旦sterilir.
16. Transactional database D nin ve minimum eikdeerinin
verildii durumda, AFOPT algoritmas脹 t端m frequent
itemsetleri mining etmek i巽in, orijinal database i iki kere
tarar.
聴lk taramada, D deki t端m frequent itemlar, artan frequent s脹ralama
i巽inde grupland脹r脹l脹r ve F={i1,i2,,im} eklinde g旦sterilir.
Dier taramay脹 ise D聴j i巽in her bir ij de conditional database
yap脹land脹rmak i巽in yapar脹z. 聴kinci tarama esnas脹nda, her bir t
ilemindeki frequent i d端端k olan itemlar kald脹r脹l脹r ve geriye kalan
itemlar Fdeki s脹raya g旦re grupland脹r脹l脹r. t ilemi, grupland脹rman脹n
ard脹ndan t nin ilk item 脹 ij ise, D聴j nin i巽ine al脹n脹r. Geriye kalan mining
ilemleri sadece conditional databaselere uygulan脹r. B旦ylelikle
orijinal database e ulamaya gerek kalmaz.
17. D聴j i巽inde bir t ilemi varsayal脹m, t nin i巽inde i1
den sonraki item ij olsun, bu durumda t D聴j nin
i巽ine yerletirilir. Bu ad脹ma push-right denir.
Itemlar脹 artan frequent s脹ralamaya g旦re
grupland脹rmak her defas脹nda k端巽端k bir
conditional database in push-right edilmesini
salar.