2. I. Data Mining
DM se definira kao „proces traženja zanimljiv ili vrijedne informacije (uzoraka)
unutar velike baze podataka”
Na prvi pogled, ova definicija činia više kao novo ime za statistiku
Međutim, DM je upravo izveden na skupovima podataka koji su daleko veći od
statističke metode mogu točno analizirati
3. Metode rudarenja podataka
DM uključuje metode koje su na raskrižju arteficial inteligencije, strojnog učenja,
statistike i sustava baza podataka
Ponekad, ove metode podržao smanjenje dimenzionalnosti, tako mapiranje skup
maksimalno informativnih dimenzija
Ponekad, oni predstavljaju određene matematičke modele
Često, kombinacija metoda se koristi za rješavanje problema
4. Metode rudarenja podataka
U osnovi, obrasci često su definirani u odnosu na ukupnu modelu skupa podataka od kojeg je
dobiven
Tovdje su mnogi alati koji su uključeni u analize podataka koje pomažu pronaći ove strukture
Neki od najvažnijih alata uključiti
Clustering - čin particioniranje skupove podataka mnogih slučajnih stvari u podskupove manje
veličine koje pokazuju zajedništvo između njih - by gleda na klastere, analitičari su u stanju izvući
statističke modele iz polja podataka
Rizlaz - the način od postavljanje krivulju kroz niz točaka pomoću neke dobrote-of-fit kriterij -
while ispitivanje predefiniranih dobrote-of-fit parametre - analitičari mogu pronaći i opisati
uzorke
RUle izvlačenje - metoda korištenja odnose između varijabli uspostaviti neku vrstu rule
DATA vizualizacija - vrsta tehnike koje mogu pomoći nas objasniti (Razumjeti) trendovi i
složenost u podacima mnogo lakše
5. Metode rudarenja podataka
Najčešće se koristi u zdravstvene znanosti
Logistička regresija (LR)
Podrška Vector Machine (SVM)
Appriori i druge pravilo udruga rudarstvu (AR)
Odluka Tree algoritmi (DT)
algoritmi Klasifikacija: K-sredstva, mjeriteljstvo (Samoorganizacija MAP) Naivni
Bayesov
Arteficial Neuronske mreže (ANN)
6. Ipak, kombinacija tehnika može elicite određenu rudarski funkciju
Tehnike Korisnost
Appriori
& Rast FP
Udruga pravilo rudarstvo za učestale seta opcije
(primjerice bolesti) u medicinskim bazama podataka
ANN
& Genetski algoritam
Izvlačenje uzoraka
otkrivanje trendove
Classifcation
Rješenje Tree algoritmi (ID3, C4, C5, CART) podršku odlučivanja
Klasifikacija
Kombinirana upotreba K-sredstva, SOm-naive Bayes Točno razvrstavanje
Kombinacija SVM, Ann i ID3 Klasifikacija
7. Logistička regresija (LR)
Popularna metoda za klasifikaciju pojedinaca, s obzirom na vrijednosti skupa nezavisnih
varijabli
Hoće li predmet oboljeti od dijabetesa?
Hoće li subjekt reagira na tretman?
Ona procjenjuje vjerojatnost da individaul je u određenoj skupini
LR ne čini nikakve pretpostavke o normalnosti, linearnosti i homogenosti varijance za
nezavisne varijable
8. Sl. 1. Logistička regresija krivulja
Value proizvedena logističke regresije je Vrijednost vjerojatnosti između 0.0 i 1.0
Ako je vjerojatnost za članstvo u grupi u modelirani kategoriji iznad nekog rez točke (zadana je
0,50) - subjekt je predviđeno da se član skupine modeliranog
Ako je vjerojatnost ispod točke rez - subjekt je predviđeno da se član druge skupine
-7.5 -5 -2.5 2.5 5 7.5
0.2
0.4
0.6
0.8
1
9. Testiranje LR modela predstave (stane do niza podataka)
Testiranje modela, ovisno o vjerojatnosti p
ROC krivulje
statistika C
Ginijev koeficijent
KS test
Testiranje modela, ovisno o cuf-off vrijednosti
Osjetljivost (istina pozitivna stopa)
Specifičnost (istina negativna stopa)
Točnost
pogreška tipa I (dijabetes pogrešnog prepoznavanja u)
greška tipa II (Pogrešnog prepoznavanja u zdravih)
10. Linearni vs logistička regresija modela
U Linearna regresija - ishod (ovisna varijabla) je kontinuirano - to može imati bilo koju
od beskonačnog broja mogućih vrijednosti.
U logistička regresija - ishod (zavisna varijabla) ima samo ograničen broj mogućih
vrijednosti - to je koristi kada varijabla odgovor je kategoričan u prirodi
Logistička model je neizbježna ako se uklapa podaci puno bolje nego linearnog modela
jan mnoge situacije - je linearni model odgovara samo kao dobro, ili gotovo kao i
logistički model
U stvari, u mnogim situacijama, linearna i logistički model daje rezultate koji su praktički
ne razlikuju
11. Sl. 2. Linearni vs logistička regresija modelu
Linearni model pretpostavlja da je vjerojatnost p je linearna funkcija regresora
Tli on logistički model pretpostavlja da je log izgledi p/ (1p) je linearna funkcija regresora
12. Podrška Vector Machine
Nadzirani postupak ML
Za klasifikaciju i regresijskih izazova (uglavnom za razvrstavanje)
Princip algoritam polaganja:
EACH dio podataka ucrtava se kao točka u n-dimenzionalni prostor (n= numbra značajki
su varible posjeduju) S vrijednosti svakog značajke se vrijednost određenog koordinata
Zatim, klasifikacija se izvodi - po pronalaženju hiper-ravnina koje diferencirajua dvije klase
vrlo dobro
13. Nadzirana ML Bez nadzora ML
Bojnik dio od praktične ML koristi nadziranog učenja
Kada postoji ulazne varijable (X) i izlazna varijabla (Y) - AIgorithm koristi se kako bi
saznali funkcije mapiranja od ulaza do izlaza: Y = f (X)
Cilj je približiti funkciju mapiranje tako dobro da kada imate nove ulazne podatke (x) -
možete predvidjeti izlazne varijable (Y) za tim podacima
To se zove nadzirano učenje, jer je proces algoritma učenja iz trening skupa podataka
se može shvatiti kao nastavnik nadzor procesa učenja.
Znamo točne odgovore, algoritam iterativno čini predviđanja na podacima trening i
korigira strane nastavnika
Učenje se zaustavlja kada je algoritam postiže prihvatljivu razinu performansi
Nadgledana problemi u učenju mogu se grupirati u regresije i klasifikacijskih
problema
Klasifikacija - kada je izlazna varijabla je kategorija, kao što su „bolesti” i „bez
Regresija - kada je izlazna varijabla je realna vrijednost, kao što je „težina”
uobičajene metode od Supervised ML su:
Linearna regresija - za probleme regresijskih
Slučajna šuma - za klasifikaciju i regresijskih problema
Podrška vektorske strojevi -za probleme klasifikacije
Kada su only ulaznih podataka (X) i bez odgovarajuće
izlazne varijable
Cilj je model temeljne strukture ili distribucije u podacima -
kako bi saznali više o podacima
to je zove bez nadzora učenja jer za razliku od nadzirane
učenja - nema znan odgovoriti i nema nastavnik
Algoritmi su prepušteni vlastitim napravama za otkrivanjem
i predstavljanjem zanimljiv strukture u podacima
Bez nadzora problemi u učenju mogu se grupirati u klastera
i udruga problema
grupiranje - kada je problem otkriti inherentne grupiranja u
u podacima, kao što su grupiranje kupnjom ponašanje
asocijacija - kada je problem otkriti pravila koja opisuju
velike dijelove vaših podataka
uobičajene metode od Unsupervised ML su:
k-sredstva - za probleme klastera
Apriorno algoritam - za pravila udruga poteškoćama u
učenju
14. Appriori algoritam (AA)
/ Druga udruga Pravilo Rudarstvo (ARM)
ARM - tehnika otkriti kako stavke povezane su međusobno
AA - mpreostala association rmodule, između česta jeETS artikala u lARGE databases (Sl. 3)
15. Stablo odlučivanja (DT) algoritmi
U nadziranih algoritama učenja
Za klasifikaciju i regresijskih problema
DT algoritam pokušava riješiti problem pomoću prikaz stabla (Sl. 4)
A dijagram toka strukturu nalik (Sl.)
EACH unutarnji čvor predstavlja test za atribut
EACH grana predstavlja ishod testa
EACH list ( terminal čvor) ima oznaku klase
Najviši u čvor drvo korijen čvor
Postoje mnoge specifične odluka-algoritmi drvo
16. Sl. 4. DT algoritam simulirati brancing logiku stabla
18. Arteficial Neuronske mreže (ANN)
A metoda umjetne inteligencije inspirirana po i strukturiran ljudski mozak
To je ML & DM metoda - metoda koja uče na primjerima
Koristi retrospektivne podatke
To se može koristiti za predviđanje, razvrstavanje i raspoznavanje uzoraka (npr association
problemi)
Prediction - brojčana vrijednost je predviđena kao izlaz (npr krvni tlak, dob i sl) i MSE ili RMSE
pogreška se koristi kao mjera evaluacije izvedbe modela
Classification - predmeti se dodjeljuju u dvije ili više kategorija izlaza (npr prisutnost /
odsutnost bolesti, rezultat liječenja, itd), a brzina klasifikacija se koristi kao mjera ocjenjivanje
izvedbe modela
ANNS pokazala uspjeh u modeliranju situacija u stvarnom svijetu, tako da se mogu koristiti iu
istraživačke svrhe i za praktičnu uporabu kao podrška odlučivanju ili simulacijski alat
19. Biološka vs Arteficial neuronske mreže
(Sl. 6)
Neuronska mreža - consists međusobno povezanih bioloških neurona
Biološki neuronske - A stanica koje primajua podaci iz drugih neurona putem dendrita, postupakes to i
poslatia impuls putem aksona i sinapsi drugim neuronima u mreži
Lzarada - provodi se promjenom težinama sinaptičkih veza - millions neurona može paralelno obrade
informacija
Umjetna neuronska mreža
predstavlja artificial neuron - procesorska jedinica (varijabilni) koji prima ulazni podatak od drugih
varijabli, pretvara ulaz prema formuli i šalje izlaz drugih varijabli
Učenje - provodi se promjenom vrijednosti težine varijabli (težina wji se promišlja kojim se množe ulaza)
21. Slika 7., - Generalizacija sposobnost ANN modela treba ispitati
Ona does ne osloniti na rezultata dobiti na jednom uzorku - mnogo iteracija učenja
na treningu postaviti odvijati u sredini (skrivenog) sloj - boravak između ulaznih i
izlaznih slojeva
22. Kriteriji za razlikovanje Ann algoritme
Brojčlanice koja slojeva
Type učenja
• Nadzorom - rEAL izlazne vrijednosti su poznati iz prošlosti i pod uvjetom da se u setu podataka
• Bez nadzora - rEAL izlazne vrijednosti nisu poznati, a koji nisu predviđeni u skup podataka, te mreže koriste
se za klaster podataka u grupama po karakteristikama
Type veza između neurona
Connection među ulaznih i izlaznih podataka
janput i funkcije za prijenos
TIME karakteristike
Lzarada vrijeme
itd
23. II. Moderni računalo-based metode
Graf-based DM
Vizualizacija podataka i Visual Analytics
Topološki DM
Slične tehnike koje se mogu koristiti za organiziranje vrlo složene i heterogenih
podataka
Podaci mogu biti vrlo moćanako zapravo možete shvatiti što to vam govorim
To nije lako dobiti jasne takeaways gledajući pobio brojeva i statistika - potrebno je
ton podaci predstavljeni u logičke, lako razumljiv način - that`s situaciji kada za
ulazak neke od tih tehnika
24. Graf-based DM
Da bi se primijenila graf-based data mining tehnike, kao što su razvrstavanje i grupiranje -
potrebno je definirati mjere blizine između podataka predstavljenih u grafu (Sl. 8. i 9.)
Postoji nekoliko mjera u-graf blizina
Hyperlink izazvana Tema pretrage (hitova)
Neumannovim Kernel (NK)
Zajednički najbližeg susjeda (SNN)
25. Slika 8. -. Definiranje blizine mjera omogućuje strukturu vidljiv
Točkasto pokazuju sličnost sa -1 do 1
26. Slika 9. -. Izvor dijagram pomoću mjera NK-blizine
- N1 ... N8 vrhova (članci)
- rubovi pokazuju citat
Navod Matrix C mogu formirati - Ako rub između dva vrha postoji onda
je matrica stanica = 1 ostali = 0
27. Slika 10. -. Kako generalizirati matematički
uzorak dalmatinskoga psa?
28. Vizualizacija podataka
Čovjek mozak obrađuje vizualne informacije bolje nego što obrađuje tekst - tako
po uporabu dijagrama, grafikona i elemente dizajna - vizualizaciju podataka može
pomoći nas objasniti (Razumjeti) trendovi i statistika puno lakše (Sl. 10.)
Slika 10. -. Struktura stanovništva po dobi - commoly koristi postupak
vizualizacije podataka u javnoj zdravstvenoj domeni
29. vizualizacija podataka
Uzorci podataka o miniranosti su toliko velika da je točkasto i histogrami će često
pada kratko predstavlja nikakvu informaciju o realnoj vrijednosti (Sl, 11.)
Upravo iz tog razloga, analitičari bave data mining stalno traže bolje načine za
grafički predstavlja podatke
Bez obzira alati analitičari će imati na dohvat ruke - obrasci i modeli koji se minirana
će biti samo dobre kvalitete kao podatke koji ga se izveden iz
30. Slika 11. -. Izrada graf jednostavniji i lakši za razumijevanje
31. Područja primjene tehnika vizualizacije podataka i vizualne
analize
Vizualizacija velika, kompleks, multivarijatni biološke mreže
Vizualni tekst analitike i klasificirati relevantne srodne poslove na bioloških entiteta
u publikaciji baze (npr PubMed)
Vizualizacija za upoznavanje heterogenih podataka
i podaci iz više izvora podataka
Visual analitika što je podrška za razumijevanje nesigurnost
i pitanje kvalitete podataka
32. Slika 12. -. Složeni podaci vizualni analitika računalo-based alat
(Osobna arhiva)
33. Slika 13., - Prvo vizualizacija the ljudski
Protein-Protein-janteraction struktura
34. Topološki DM
Primjena topoloških tehnika na DM i KDD je vruće i obećavajuće područje budućih
istraživanja.
Topologija ima svoje korijene u teorijskoj matematici, ali u posljednjem desetljeću
računalna topologija brzo dobiva zanimanje među računalnim znanstvenicima.
To je proučavanje apstraktnih oblika i prostora i mapiranja između njih. Nastao je iz
studija geometrije i teorije skupova.
Topološke metode mogu se primijeniti na podatke prikazane oblacima točaka, odnosno
konačnim podskupinama n-dimenzionalnog euklidskog prostora.
Ulaz je predstavljen s primjerom nekog nepoznatog prostora koji se želi rekonstruirati i
razumjeti.
Razlikovanje ambijentalne dimenzije ugradnje i unutarnje dimenzije podataka od
primarnog je interesa za razumijevanje unutarnje strukture podataka.
35. Topološki DM
Geometrijske i topološke metode su alati koji nam omogućuju analizu vrlo složenih podataka
Moderna podatkovna znanost koristi topološke metode kako bi pronašla strukturne značajke
skupova podataka prije daljnje nadzirane ili nenadzirane analize
Matematički formalizam, koji je razvijen za uključivanje geometrijskih i topoloških tehnika, bavi
se skupovima podataka u oblaku točaka, tj. Konačnim skupovima točaka
Točkasti oblaci su konačni uzorci uzeti iz geometrijskog objekta
Alati iz različitih grana geometrije i topologije zatim se koriste za proučavanje skupova podataka
oblaka točaka
Topologija pruža formalni jezik za kvalitativnu matematiku, dok je geometrija uglavnom
kvantitativna.
Topologija proučava odnose blizine ili blizine, jer se geometrija može smatrati proučavanjem
funkcija udaljenosti
Ove metode stvaraju sažetak ili komprimirani prikaz svih podatkovnih značajki koje pomažu u
brzom otkrivanju određenih uzoraka i odnosa u podacima.
Ideja konstruiranja sažetaka cijelih domena atributa uključuje razumijevanje odnosa između
topoloških i geometrijskih objekata konstruiranih iz podataka pomoću različitih značajki
36. Topološki DM
Sl. 14.
Oblikovanje računalne
strukturu (dolje) iz oblika koji
se želi rekonstruirati i
razumjeti (iznad)