ݺߣ

ݺߣShare a Scribd company logo
INTEREG Projekt
Biomedicinska informatika
Ljiljana Majnarić Trtica
II. Osnovni tečaj računalnih metoda
I. Data Mining
 DM se definira kao „proces traženja zanimljiv ili vrijedne informacije (uzoraka)
unutar velike baze podataka”
 Na prvi pogled, ova definicija činia više kao novo ime za statistiku
 Međutim, DM je upravo izveden na skupovima podataka koji su daleko veći od
statističke metode mogu točno analizirati
Metode rudarenja podataka
 DM uključuje metode koje su na raskrižju arteficial inteligencije, strojnog učenja,
statistike i sustava baza podataka
 Ponekad, ove metode podržao smanjenje dimenzionalnosti, tako mapiranje skup
maksimalno informativnih dimenzija
 Ponekad, oni predstavljaju određene matematičke modele
 Često, kombinacija metoda se koristi za rješavanje problema
Metode rudarenja podataka
 U osnovi, obrasci često su definirani u odnosu na ukupnu modelu skupa podataka od kojeg je
dobiven
 Tovdje su mnogi alati koji su uključeni u analize podataka koje pomažu pronaći ove strukture
 Neki od najvažnijih alata uključiti
 Clustering - čin particioniranje skupove podataka mnogih slučajnih stvari u podskupove manje
veličine koje pokazuju zajedništvo između njih - by gleda na klastere, analitičari su u stanju izvući
statističke modele iz polja podataka
 Rizlaz - the način od postavljanje krivulju kroz niz točaka pomoću neke dobrote-of-fit kriterij -
while ispitivanje predefiniranih dobrote-of-fit parametre - analitičari mogu pronaći i opisati
uzorke
 RUle izvlačenje - metoda korištenja odnose između varijabli uspostaviti neku vrstu rule
 DATA vizualizacija - vrsta tehnike koje mogu pomoći nas objasniti (Razumjeti) trendovi i
složenost u podacima mnogo lakše
Metode rudarenja podataka
Najčešće se koristi u zdravstvene znanosti
 Logistička regresija (LR)
 Podrška Vector Machine (SVM)
 Appriori i druge pravilo udruga rudarstvu (AR)
 Odluka Tree algoritmi (DT)
 algoritmi Klasifikacija: K-sredstva, mjeriteljstvo (Samoorganizacija MAP) Naivni
Bayesov
 Arteficial Neuronske mreže (ANN)
Ipak, kombinacija tehnika može elicite određenu rudarski funkciju
Tehnike Korisnost
Appriori
& Rast FP
Udruga pravilo rudarstvo za učestale seta opcije
(primjerice bolesti) u medicinskim bazama podataka
ANN
& Genetski algoritam
Izvlačenje uzoraka
otkrivanje trendove
Classifcation
Rješenje Tree algoritmi (ID3, C4, C5, CART) podršku odlučivanja
Klasifikacija
Kombinirana upotreba K-sredstva, SOm-naive Bayes Točno razvrstavanje
Kombinacija SVM, Ann i ID3 Klasifikacija
Logistička regresija (LR)
 Popularna metoda za klasifikaciju pojedinaca, s obzirom na vrijednosti skupa nezavisnih
varijabli
 Hoće li predmet oboljeti od dijabetesa?
 Hoće li subjekt reagira na tretman?
 Ona procjenjuje vjerojatnost da individaul je u određenoj skupini
 LR ne čini nikakve pretpostavke o normalnosti, linearnosti i homogenosti varijance za
nezavisne varijable
Sl. 1. Logistička regresija krivulja
 Value proizvedena logističke regresije je Vrijednost vjerojatnosti između 0.0 i 1.0
 Ako je vjerojatnost za članstvo u grupi u modelirani kategoriji iznad nekog rez točke (zadana je
0,50) - subjekt je predviđeno da se član skupine modeliranog
 Ako je vjerojatnost ispod točke rez - subjekt je predviđeno da se član druge skupine
-7.5 -5 -2.5 2.5 5 7.5
0.2
0.4
0.6
0.8
1
Testiranje LR modela predstave (stane do niza podataka)
 Testiranje modela, ovisno o vjerojatnosti p
 ROC krivulje
 statistika C
 Ginijev koeficijent
 KS test
 Testiranje modela, ovisno o cuf-off vrijednosti
 Osjetljivost (istina pozitivna stopa)
 Specifičnost (istina negativna stopa)
 Točnost
 pogreška tipa I (dijabetes pogrešnog prepoznavanja u)
 greška tipa II (Pogrešnog prepoznavanja u zdravih)
Linearni vs logistička regresija modela
 U Linearna regresija - ishod (ovisna varijabla) je kontinuirano - to može imati bilo koju
od beskonačnog broja mogućih vrijednosti.
 U logistička regresija - ishod (zavisna varijabla) ima samo ograničen broj mogućih
vrijednosti - to je koristi kada varijabla odgovor je kategoričan u prirodi
 Logistička model je neizbježna ako se uklapa podaci puno bolje nego linearnog modela
 jan mnoge situacije - je linearni model odgovara samo kao dobro, ili gotovo kao i
logistički model
 U stvari, u mnogim situacijama, linearna i logistički model daje rezultate koji su praktički
ne razlikuju
Sl. 2. Linearni vs logistička regresija modelu
Linearni model pretpostavlja da je vjerojatnost p je linearna funkcija regresora
Tli on logistički model pretpostavlja da je log izgledi p/ (1p) je linearna funkcija regresora
Podrška Vector Machine
 Nadzirani postupak ML
 Za klasifikaciju i regresijskih izazova (uglavnom za razvrstavanje)
 Princip algoritam polaganja:
 EACH dio podataka ucrtava se kao točka u n-dimenzionalni prostor (n= numbra značajki
su varible posjeduju) S vrijednosti svakog značajke se vrijednost određenog koordinata
 Zatim, klasifikacija se izvodi - po pronalaženju hiper-ravnina koje diferencirajua dvije klase
vrlo dobro
Nadzirana ML Bez nadzora ML
Bojnik dio od praktične ML koristi nadziranog učenja
Kada postoji ulazne varijable (X) i izlazna varijabla (Y) - AIgorithm koristi se kako bi
saznali funkcije mapiranja od ulaza do izlaza: Y = f (X)
Cilj je približiti funkciju mapiranje tako dobro da kada imate nove ulazne podatke (x) -
možete predvidjeti izlazne varijable (Y) za tim podacima
To se zove nadzirano učenje, jer je proces algoritma učenja iz trening skupa podataka
se može shvatiti kao nastavnik nadzor procesa učenja.
Znamo točne odgovore, algoritam iterativno čini predviđanja na podacima trening i
korigira strane nastavnika
Učenje se zaustavlja kada je algoritam postiže prihvatljivu razinu performansi
Nadgledana problemi u učenju mogu se grupirati u regresije i klasifikacijskih
problema
Klasifikacija - kada je izlazna varijabla je kategorija, kao što su „bolesti” i „bez
Regresija - kada je izlazna varijabla je realna vrijednost, kao što je „težina”
uobičajene metode od Supervised ML su:
Linearna regresija - za probleme regresijskih
Slučajna šuma - za klasifikaciju i regresijskih problema
Podrška vektorske strojevi -za probleme klasifikacije
Kada su only ulaznih podataka (X) i bez odgovarajuće
izlazne varijable
Cilj je model temeljne strukture ili distribucije u podacima -
kako bi saznali više o podacima
to je zove bez nadzora učenja jer za razliku od nadzirane
učenja - nema znan odgovoriti i nema nastavnik
Algoritmi su prepušteni vlastitim napravama za otkrivanjem
i predstavljanjem zanimljiv strukture u podacima
Bez nadzora problemi u učenju mogu se grupirati u klastera
i udruga problema
grupiranje - kada je problem otkriti inherentne grupiranja u
u podacima, kao što su grupiranje kupnjom ponašanje
asocijacija - kada je problem otkriti pravila koja opisuju
velike dijelove vaših podataka
uobičajene metode od Unsupervised ML su:
k-sredstva - za probleme klastera
Apriorno algoritam - za pravila udruga poteškoćama u
učenju
Appriori algoritam (AA)
/ Druga udruga Pravilo Rudarstvo (ARM)
 ARM - tehnika otkriti kako stavke povezane su međusobno
 AA - mpreostala association rmodule, između česta jeETS artikala u lARGE databases (Sl. 3)
Stablo odlučivanja (DT) algoritmi
 U nadziranih algoritama učenja
 Za klasifikaciju i regresijskih problema
 DT algoritam pokušava riješiti problem pomoću prikaz stabla (Sl. 4)
 A dijagram toka strukturu nalik (Sl.)
 EACH unutarnji čvor predstavlja test za atribut
 EACH grana predstavlja ishod testa
 EACH list ( terminal čvor) ima oznaku klase
 Najviši u čvor drvo korijen čvor
 Postoje mnoge specifične odluka-algoritmi drvo
Sl. 4. DT algoritam simulirati brancing logiku stabla
Slika 5. DT-based rezultati klasifikacije
(Osobna arhiva)
Arteficial Neuronske mreže (ANN)
 A metoda umjetne inteligencije inspirirana po i strukturiran ljudski mozak
 To je ML & DM metoda - metoda koja uče na primjerima
 Koristi retrospektivne podatke
 To se može koristiti za predviđanje, razvrstavanje i raspoznavanje uzoraka (npr association
problemi)
 Prediction - brojčana vrijednost je predviđena kao izlaz (npr krvni tlak, dob i sl) i MSE ili RMSE
pogreška se koristi kao mjera evaluacije izvedbe modela
 Classification - predmeti se dodjeljuju u dvije ili više kategorija izlaza (npr prisutnost /
odsutnost bolesti, rezultat liječenja, itd), a brzina klasifikacija se koristi kao mjera ocjenjivanje
izvedbe modela
 ANNS pokazala uspjeh u modeliranju situacija u stvarnom svijetu, tako da se mogu koristiti iu
istraživačke svrhe i za praktičnu uporabu kao podrška odlučivanju ili simulacijski alat
Biološka vs Arteficial neuronske mreže
(Sl. 6)
 Neuronska mreža - consists međusobno povezanih bioloških neurona
 Biološki neuronske - A stanica koje primajua podaci iz drugih neurona putem dendrita, postupakes to i
poslatia impuls putem aksona i sinapsi drugim neuronima u mreži
 Lzarada - provodi se promjenom težinama sinaptičkih veza - millions neurona može paralelno obrade
informacija
 Umjetna neuronska mreža
 predstavlja artificial neuron - procesorska jedinica (varijabilni) koji prima ulazni podatak od drugih
varijabli, pretvara ulaz prema formuli i šalje izlaz drugih varijabli
 Učenje - provodi se promjenom vrijednosti težine varijabli (težina wji se promišlja kojim se množe ulaza)
Slika 6. -, biološki vs arteficial NN
Slika 7., - Generalizacija sposobnost ANN modela treba ispitati
 Ona does ne osloniti na rezultata dobiti na jednom uzorku - mnogo iteracija učenja
na treningu postaviti odvijati u sredini (skrivenog) sloj - boravak između ulaznih i
izlaznih slojeva
Kriteriji za razlikovanje Ann algoritme
 Brojčlanice koja slojeva
 Type učenja
• Nadzorom - rEAL izlazne vrijednosti su poznati iz prošlosti i pod uvjetom da se u setu podataka
• Bez nadzora - rEAL izlazne vrijednosti nisu poznati, a koji nisu predviđeni u skup podataka, te mreže koriste
se za klaster podataka u grupama po karakteristikama
 Type veza između neurona
 Connection među ulaznih i izlaznih podataka
 janput i funkcije za prijenos
 TIME karakteristike
 Lzarada vrijeme
 itd
II. Moderni računalo-based metode
 Graf-based DM
 Vizualizacija podataka i Visual Analytics
 Topološki DM
 Slične tehnike koje se mogu koristiti za organiziranje vrlo složene i heterogenih
podataka
 Podaci mogu biti vrlo moćanako zapravo možete shvatiti što to vam govorim
 To nije lako dobiti jasne takeaways gledajući pobio brojeva i statistika - potrebno je
ton podaci predstavljeni u logičke, lako razumljiv način - that`s situaciji kada za
ulazak neke od tih tehnika
Graf-based DM
 Da bi se primijenila graf-based data mining tehnike, kao što su razvrstavanje i grupiranje -
potrebno je definirati mjere blizine između podataka predstavljenih u grafu (Sl. 8. i 9.)
 Postoji nekoliko mjera u-graf blizina
 Hyperlink izazvana Tema pretrage (hitova)
 Neumannovim Kernel (NK)
 Zajednički najbližeg susjeda (SNN)
Slika 8. -. Definiranje blizine mjera omogućuje strukturu vidljiv
Točkasto pokazuju sličnost sa -1 do 1
Slika 9. -. Izvor dijagram pomoću mjera NK-blizine
- N1 ... N8 vrhova (članci)
- rubovi pokazuju citat
Navod Matrix C mogu formirati - Ako rub između dva vrha postoji onda
je matrica stanica = 1 ostali = 0
Slika 10. -. Kako generalizirati matematički
uzorak dalmatinskoga psa?
Vizualizacija podataka
 Čovjek mozak obrađuje vizualne informacije bolje nego što obrađuje tekst - tako
po uporabu dijagrama, grafikona i elemente dizajna - vizualizaciju podataka može
pomoći nas objasniti (Razumjeti) trendovi i statistika puno lakše (Sl. 10.)
Slika 10. -. Struktura stanovništva po dobi - commoly koristi postupak
vizualizacije podataka u javnoj zdravstvenoj domeni
vizualizacija podataka
 Uzorci podataka o miniranosti su toliko velika da je točkasto i histogrami će često
pada kratko predstavlja nikakvu informaciju o realnoj vrijednosti (Sl, 11.)
 Upravo iz tog razloga, analitičari bave data mining stalno traže bolje načine za
grafički predstavlja podatke
 Bez obzira alati analitičari će imati na dohvat ruke - obrasci i modeli koji se minirana
će biti samo dobre kvalitete kao podatke koji ga se izveden iz
Slika 11. -. Izrada graf jednostavniji i lakši za razumijevanje
Područja primjene tehnika vizualizacije podataka i vizualne
analize
 Vizualizacija velika, kompleks, multivarijatni biološke mreže
 Vizualni tekst analitike i klasificirati relevantne srodne poslove na bioloških entiteta
u publikaciji baze (npr PubMed)
 Vizualizacija za upoznavanje heterogenih podataka
i podaci iz više izvora podataka
 Visual analitika što je podrška za razumijevanje nesigurnost
i pitanje kvalitete podataka
Slika 12. -. Složeni podaci vizualni analitika računalo-based alat
(Osobna arhiva)
Slika 13., - Prvo vizualizacija the ljudski
Protein-Protein-janteraction struktura
Topološki DM
 Primjena topoloških tehnika na DM i KDD je vruće i obećavajuće područje budućih
istraživanja.
 Topologija ima svoje korijene u teorijskoj matematici, ali u posljednjem desetljeću
računalna topologija brzo dobiva zanimanje među računalnim znanstvenicima.
 To je proučavanje apstraktnih oblika i prostora i mapiranja između njih. Nastao je iz
studija geometrije i teorije skupova.
 Topološke metode mogu se primijeniti na podatke prikazane oblacima točaka, odnosno
konačnim podskupinama n-dimenzionalnog euklidskog prostora.
 Ulaz je predstavljen s primjerom nekog nepoznatog prostora koji se želi rekonstruirati i
razumjeti.
 Razlikovanje ambijentalne dimenzije ugradnje i unutarnje dimenzije podataka od
primarnog je interesa za razumijevanje unutarnje strukture podataka.
Topološki DM
 Geometrijske i topološke metode su alati koji nam omogućuju analizu vrlo složenih podataka
 Moderna podatkovna znanost koristi topološke metode kako bi pronašla strukturne značajke
skupova podataka prije daljnje nadzirane ili nenadzirane analize
 Matematički formalizam, koji je razvijen za uključivanje geometrijskih i topoloških tehnika, bavi
se skupovima podataka u oblaku točaka, tj. Konačnim skupovima točaka
 Točkasti oblaci su konačni uzorci uzeti iz geometrijskog objekta
 Alati iz različitih grana geometrije i topologije zatim se koriste za proučavanje skupova podataka
oblaka točaka
 Topologija pruža formalni jezik za kvalitativnu matematiku, dok je geometrija uglavnom
kvantitativna.
 Topologija proučava odnose blizine ili blizine, jer se geometrija može smatrati proučavanjem
funkcija udaljenosti
 Ove metode stvaraju sažetak ili komprimirani prikaz svih podatkovnih značajki koje pomažu u
brzom otkrivanju određenih uzoraka i odnosa u podacima.
 Ideja konstruiranja sažetaka cijelih domena atributa uključuje razumijevanje odnosa između
topoloških i geometrijskih objekata konstruiranih iz podataka pomoću različitih značajki
Topološki DM
 Sl. 14.
 Oblikovanje računalne
strukturu (dolje) iz oblika koji
se želi rekonstruirati i
razumjeti (iznad)

More Related Content

Osnovni tečaj računalnih metoda

  • 1. INTEREG Projekt Biomedicinska informatika Ljiljana Majnarić Trtica II. Osnovni tečaj računalnih metoda
  • 2. I. Data Mining  DM se definira kao „proces traženja zanimljiv ili vrijedne informacije (uzoraka) unutar velike baze podataka”  Na prvi pogled, ova definicija činia više kao novo ime za statistiku  Međutim, DM je upravo izveden na skupovima podataka koji su daleko veći od statističke metode mogu točno analizirati
  • 3. Metode rudarenja podataka  DM uključuje metode koje su na raskrižju arteficial inteligencije, strojnog učenja, statistike i sustava baza podataka  Ponekad, ove metode podržao smanjenje dimenzionalnosti, tako mapiranje skup maksimalno informativnih dimenzija  Ponekad, oni predstavljaju određene matematičke modele  Često, kombinacija metoda se koristi za rješavanje problema
  • 4. Metode rudarenja podataka  U osnovi, obrasci često su definirani u odnosu na ukupnu modelu skupa podataka od kojeg je dobiven  Tovdje su mnogi alati koji su uključeni u analize podataka koje pomažu pronaći ove strukture  Neki od najvažnijih alata uključiti  Clustering - čin particioniranje skupove podataka mnogih slučajnih stvari u podskupove manje veličine koje pokazuju zajedništvo između njih - by gleda na klastere, analitičari su u stanju izvući statističke modele iz polja podataka  Rizlaz - the način od postavljanje krivulju kroz niz točaka pomoću neke dobrote-of-fit kriterij - while ispitivanje predefiniranih dobrote-of-fit parametre - analitičari mogu pronaći i opisati uzorke  RUle izvlačenje - metoda korištenja odnose između varijabli uspostaviti neku vrstu rule  DATA vizualizacija - vrsta tehnike koje mogu pomoći nas objasniti (Razumjeti) trendovi i složenost u podacima mnogo lakše
  • 5. Metode rudarenja podataka Najčešće se koristi u zdravstvene znanosti  Logistička regresija (LR)  Podrška Vector Machine (SVM)  Appriori i druge pravilo udruga rudarstvu (AR)  Odluka Tree algoritmi (DT)  algoritmi Klasifikacija: K-sredstva, mjeriteljstvo (Samoorganizacija MAP) Naivni Bayesov  Arteficial Neuronske mreže (ANN)
  • 6. Ipak, kombinacija tehnika može elicite određenu rudarski funkciju Tehnike Korisnost Appriori & Rast FP Udruga pravilo rudarstvo za učestale seta opcije (primjerice bolesti) u medicinskim bazama podataka ANN & Genetski algoritam Izvlačenje uzoraka otkrivanje trendove Classifcation Rješenje Tree algoritmi (ID3, C4, C5, CART) podršku odlučivanja Klasifikacija Kombinirana upotreba K-sredstva, SOm-naive Bayes Točno razvrstavanje Kombinacija SVM, Ann i ID3 Klasifikacija
  • 7. Logistička regresija (LR)  Popularna metoda za klasifikaciju pojedinaca, s obzirom na vrijednosti skupa nezavisnih varijabli  Hoće li predmet oboljeti od dijabetesa?  Hoće li subjekt reagira na tretman?  Ona procjenjuje vjerojatnost da individaul je u određenoj skupini  LR ne čini nikakve pretpostavke o normalnosti, linearnosti i homogenosti varijance za nezavisne varijable
  • 8. Sl. 1. Logistička regresija krivulja  Value proizvedena logističke regresije je Vrijednost vjerojatnosti između 0.0 i 1.0  Ako je vjerojatnost za članstvo u grupi u modelirani kategoriji iznad nekog rez točke (zadana je 0,50) - subjekt je predviđeno da se član skupine modeliranog  Ako je vjerojatnost ispod točke rez - subjekt je predviđeno da se član druge skupine -7.5 -5 -2.5 2.5 5 7.5 0.2 0.4 0.6 0.8 1
  • 9. Testiranje LR modela predstave (stane do niza podataka)  Testiranje modela, ovisno o vjerojatnosti p  ROC krivulje  statistika C  Ginijev koeficijent  KS test  Testiranje modela, ovisno o cuf-off vrijednosti  Osjetljivost (istina pozitivna stopa)  Specifičnost (istina negativna stopa)  Točnost  pogreška tipa I (dijabetes pogrešnog prepoznavanja u)  greška tipa II (Pogrešnog prepoznavanja u zdravih)
  • 10. Linearni vs logistička regresija modela  U Linearna regresija - ishod (ovisna varijabla) je kontinuirano - to može imati bilo koju od beskonačnog broja mogućih vrijednosti.  U logistička regresija - ishod (zavisna varijabla) ima samo ograničen broj mogućih vrijednosti - to je koristi kada varijabla odgovor je kategoričan u prirodi  Logistička model je neizbježna ako se uklapa podaci puno bolje nego linearnog modela  jan mnoge situacije - je linearni model odgovara samo kao dobro, ili gotovo kao i logistički model  U stvari, u mnogim situacijama, linearna i logistički model daje rezultate koji su praktički ne razlikuju
  • 11. Sl. 2. Linearni vs logistička regresija modelu Linearni model pretpostavlja da je vjerojatnost p je linearna funkcija regresora Tli on logistički model pretpostavlja da je log izgledi p/ (1p) je linearna funkcija regresora
  • 12. Podrška Vector Machine  Nadzirani postupak ML  Za klasifikaciju i regresijskih izazova (uglavnom za razvrstavanje)  Princip algoritam polaganja:  EACH dio podataka ucrtava se kao točka u n-dimenzionalni prostor (n= numbra značajki su varible posjeduju) S vrijednosti svakog značajke se vrijednost određenog koordinata  Zatim, klasifikacija se izvodi - po pronalaženju hiper-ravnina koje diferencirajua dvije klase vrlo dobro
  • 13. Nadzirana ML Bez nadzora ML Bojnik dio od praktične ML koristi nadziranog učenja Kada postoji ulazne varijable (X) i izlazna varijabla (Y) - AIgorithm koristi se kako bi saznali funkcije mapiranja od ulaza do izlaza: Y = f (X) Cilj je približiti funkciju mapiranje tako dobro da kada imate nove ulazne podatke (x) - možete predvidjeti izlazne varijable (Y) za tim podacima To se zove nadzirano učenje, jer je proces algoritma učenja iz trening skupa podataka se može shvatiti kao nastavnik nadzor procesa učenja. Znamo točne odgovore, algoritam iterativno čini predviđanja na podacima trening i korigira strane nastavnika Učenje se zaustavlja kada je algoritam postiže prihvatljivu razinu performansi Nadgledana problemi u učenju mogu se grupirati u regresije i klasifikacijskih problema Klasifikacija - kada je izlazna varijabla je kategorija, kao što su „bolesti” i „bez Regresija - kada je izlazna varijabla je realna vrijednost, kao što je „težina” uobičajene metode od Supervised ML su: Linearna regresija - za probleme regresijskih Slučajna šuma - za klasifikaciju i regresijskih problema Podrška vektorske strojevi -za probleme klasifikacije Kada su only ulaznih podataka (X) i bez odgovarajuće izlazne varijable Cilj je model temeljne strukture ili distribucije u podacima - kako bi saznali više o podacima to je zove bez nadzora učenja jer za razliku od nadzirane učenja - nema znan odgovoriti i nema nastavnik Algoritmi su prepušteni vlastitim napravama za otkrivanjem i predstavljanjem zanimljiv strukture u podacima Bez nadzora problemi u učenju mogu se grupirati u klastera i udruga problema grupiranje - kada je problem otkriti inherentne grupiranja u u podacima, kao što su grupiranje kupnjom ponašanje asocijacija - kada je problem otkriti pravila koja opisuju velike dijelove vaših podataka uobičajene metode od Unsupervised ML su: k-sredstva - za probleme klastera Apriorno algoritam - za pravila udruga poteškoćama u učenju
  • 14. Appriori algoritam (AA) / Druga udruga Pravilo Rudarstvo (ARM)  ARM - tehnika otkriti kako stavke povezane su međusobno  AA - mpreostala association rmodule, između česta jeETS artikala u lARGE databases (Sl. 3)
  • 15. Stablo odlučivanja (DT) algoritmi  U nadziranih algoritama učenja  Za klasifikaciju i regresijskih problema  DT algoritam pokušava riješiti problem pomoću prikaz stabla (Sl. 4)  A dijagram toka strukturu nalik (Sl.)  EACH unutarnji čvor predstavlja test za atribut  EACH grana predstavlja ishod testa  EACH list ( terminal čvor) ima oznaku klase  Najviši u čvor drvo korijen čvor  Postoje mnoge specifične odluka-algoritmi drvo
  • 16. Sl. 4. DT algoritam simulirati brancing logiku stabla
  • 17. Slika 5. DT-based rezultati klasifikacije (Osobna arhiva)
  • 18. Arteficial Neuronske mreže (ANN)  A metoda umjetne inteligencije inspirirana po i strukturiran ljudski mozak  To je ML & DM metoda - metoda koja uče na primjerima  Koristi retrospektivne podatke  To se može koristiti za predviđanje, razvrstavanje i raspoznavanje uzoraka (npr association problemi)  Prediction - brojčana vrijednost je predviđena kao izlaz (npr krvni tlak, dob i sl) i MSE ili RMSE pogreška se koristi kao mjera evaluacije izvedbe modela  Classification - predmeti se dodjeljuju u dvije ili više kategorija izlaza (npr prisutnost / odsutnost bolesti, rezultat liječenja, itd), a brzina klasifikacija se koristi kao mjera ocjenjivanje izvedbe modela  ANNS pokazala uspjeh u modeliranju situacija u stvarnom svijetu, tako da se mogu koristiti iu istraživačke svrhe i za praktičnu uporabu kao podrška odlučivanju ili simulacijski alat
  • 19. Biološka vs Arteficial neuronske mreže (Sl. 6)  Neuronska mreža - consists međusobno povezanih bioloških neurona  Biološki neuronske - A stanica koje primajua podaci iz drugih neurona putem dendrita, postupakes to i poslatia impuls putem aksona i sinapsi drugim neuronima u mreži  Lzarada - provodi se promjenom težinama sinaptičkih veza - millions neurona može paralelno obrade informacija  Umjetna neuronska mreža  predstavlja artificial neuron - procesorska jedinica (varijabilni) koji prima ulazni podatak od drugih varijabli, pretvara ulaz prema formuli i šalje izlaz drugih varijabli  Učenje - provodi se promjenom vrijednosti težine varijabli (težina wji se promišlja kojim se množe ulaza)
  • 20. Slika 6. -, biološki vs arteficial NN
  • 21. Slika 7., - Generalizacija sposobnost ANN modela treba ispitati  Ona does ne osloniti na rezultata dobiti na jednom uzorku - mnogo iteracija učenja na treningu postaviti odvijati u sredini (skrivenog) sloj - boravak između ulaznih i izlaznih slojeva
  • 22. Kriteriji za razlikovanje Ann algoritme  Brojčlanice koja slojeva  Type učenja • Nadzorom - rEAL izlazne vrijednosti su poznati iz prošlosti i pod uvjetom da se u setu podataka • Bez nadzora - rEAL izlazne vrijednosti nisu poznati, a koji nisu predviđeni u skup podataka, te mreže koriste se za klaster podataka u grupama po karakteristikama  Type veza između neurona  Connection među ulaznih i izlaznih podataka  janput i funkcije za prijenos  TIME karakteristike  Lzarada vrijeme  itd
  • 23. II. Moderni računalo-based metode  Graf-based DM  Vizualizacija podataka i Visual Analytics  Topološki DM  Slične tehnike koje se mogu koristiti za organiziranje vrlo složene i heterogenih podataka  Podaci mogu biti vrlo moćanako zapravo možete shvatiti što to vam govorim  To nije lako dobiti jasne takeaways gledajući pobio brojeva i statistika - potrebno je ton podaci predstavljeni u logičke, lako razumljiv način - that`s situaciji kada za ulazak neke od tih tehnika
  • 24. Graf-based DM  Da bi se primijenila graf-based data mining tehnike, kao što su razvrstavanje i grupiranje - potrebno je definirati mjere blizine između podataka predstavljenih u grafu (Sl. 8. i 9.)  Postoji nekoliko mjera u-graf blizina  Hyperlink izazvana Tema pretrage (hitova)  Neumannovim Kernel (NK)  Zajednički najbližeg susjeda (SNN)
  • 25. Slika 8. -. Definiranje blizine mjera omogućuje strukturu vidljiv Točkasto pokazuju sličnost sa -1 do 1
  • 26. Slika 9. -. Izvor dijagram pomoću mjera NK-blizine - N1 ... N8 vrhova (članci) - rubovi pokazuju citat Navod Matrix C mogu formirati - Ako rub između dva vrha postoji onda je matrica stanica = 1 ostali = 0
  • 27. Slika 10. -. Kako generalizirati matematički uzorak dalmatinskoga psa?
  • 28. Vizualizacija podataka  Čovjek mozak obrađuje vizualne informacije bolje nego što obrađuje tekst - tako po uporabu dijagrama, grafikona i elemente dizajna - vizualizaciju podataka može pomoći nas objasniti (Razumjeti) trendovi i statistika puno lakše (Sl. 10.) Slika 10. -. Struktura stanovništva po dobi - commoly koristi postupak vizualizacije podataka u javnoj zdravstvenoj domeni
  • 29. vizualizacija podataka  Uzorci podataka o miniranosti su toliko velika da je točkasto i histogrami će često pada kratko predstavlja nikakvu informaciju o realnoj vrijednosti (Sl, 11.)  Upravo iz tog razloga, analitičari bave data mining stalno traže bolje načine za grafički predstavlja podatke  Bez obzira alati analitičari će imati na dohvat ruke - obrasci i modeli koji se minirana će biti samo dobre kvalitete kao podatke koji ga se izveden iz
  • 30. Slika 11. -. Izrada graf jednostavniji i lakši za razumijevanje
  • 31. Područja primjene tehnika vizualizacije podataka i vizualne analize  Vizualizacija velika, kompleks, multivarijatni biološke mreže  Vizualni tekst analitike i klasificirati relevantne srodne poslove na bioloških entiteta u publikaciji baze (npr PubMed)  Vizualizacija za upoznavanje heterogenih podataka i podaci iz više izvora podataka  Visual analitika što je podrška za razumijevanje nesigurnost i pitanje kvalitete podataka
  • 32. Slika 12. -. Složeni podaci vizualni analitika računalo-based alat (Osobna arhiva)
  • 33. Slika 13., - Prvo vizualizacija the ljudski Protein-Protein-janteraction struktura
  • 34. Topološki DM  Primjena topoloških tehnika na DM i KDD je vruće i obećavajuće područje budućih istraživanja.  Topologija ima svoje korijene u teorijskoj matematici, ali u posljednjem desetljeću računalna topologija brzo dobiva zanimanje među računalnim znanstvenicima.  To je proučavanje apstraktnih oblika i prostora i mapiranja između njih. Nastao je iz studija geometrije i teorije skupova.  Topološke metode mogu se primijeniti na podatke prikazane oblacima točaka, odnosno konačnim podskupinama n-dimenzionalnog euklidskog prostora.  Ulaz je predstavljen s primjerom nekog nepoznatog prostora koji se želi rekonstruirati i razumjeti.  Razlikovanje ambijentalne dimenzije ugradnje i unutarnje dimenzije podataka od primarnog je interesa za razumijevanje unutarnje strukture podataka.
  • 35. Topološki DM  Geometrijske i topološke metode su alati koji nam omogućuju analizu vrlo složenih podataka  Moderna podatkovna znanost koristi topološke metode kako bi pronašla strukturne značajke skupova podataka prije daljnje nadzirane ili nenadzirane analize  Matematički formalizam, koji je razvijen za uključivanje geometrijskih i topoloških tehnika, bavi se skupovima podataka u oblaku točaka, tj. Konačnim skupovima točaka  Točkasti oblaci su konačni uzorci uzeti iz geometrijskog objekta  Alati iz različitih grana geometrije i topologije zatim se koriste za proučavanje skupova podataka oblaka točaka  Topologija pruža formalni jezik za kvalitativnu matematiku, dok je geometrija uglavnom kvantitativna.  Topologija proučava odnose blizine ili blizine, jer se geometrija može smatrati proučavanjem funkcija udaljenosti  Ove metode stvaraju sažetak ili komprimirani prikaz svih podatkovnih značajki koje pomažu u brzom otkrivanju određenih uzoraka i odnosa u podacima.  Ideja konstruiranja sažetaka cijelih domena atributa uključuje razumijevanje odnosa između topoloških i geometrijskih objekata konstruiranih iz podataka pomoću različitih značajki
  • 36. Topološki DM  Sl. 14.  Oblikovanje računalne strukturu (dolje) iz oblika koji se želi rekonstruirati i razumjeti (iznad)