際際滷

際際滷Share a Scribd company logo
INTEREG Projekt
Biomedicinska informatika
Ljiljana Majnari Trtica
II. Osnovni teaj raunalnih metoda
I. Data Mining
 DM se definira kao proces tra転enja zanimljiv ili vrijedne informacije (uzoraka)
unutar velike baze podataka
 Na prvi pogled, ova definicija inia vi邸e kao novo ime za statistiku
 Meutim, DM je upravo izveden na skupovima podataka koji su daleko vei od
statistike metode mogu tono analizirati
Metode rudarenja podataka
 DM ukljuuje metode koje su na raskri転ju arteficial inteligencije, strojnog uenja,
statistike i sustava baza podataka
 Ponekad, ove metode podr転ao smanjenje dimenzionalnosti, tako mapiranje skup
maksimalno informativnih dimenzija
 Ponekad, oni predstavljaju odreene matematike modele
 esto, kombinacija metoda se koristi za rje邸avanje problema
Metode rudarenja podataka
 U osnovi, obrasci esto su definirani u odnosu na ukupnu modelu skupa podataka od kojeg je
dobiven
 Tovdje su mnogi alati koji su ukljueni u analize podataka koje poma転u pronai ove strukture
 Neki od najva転nijih alata ukljuiti
 Clustering - in particioniranje skupove podataka mnogih sluajnih stvari u podskupove manje
veliine koje pokazuju zajedni邸tvo izmeu njih - by gleda na klastere, analitiari su u stanju izvui
statistike modele iz polja podataka
 Rizlaz - the nain od postavljanje krivulju kroz niz toaka pomou neke dobrote-of-fit kriterij -
while ispitivanje predefiniranih dobrote-of-fit parametre - analitiari mogu pronai i opisati
uzorke
 RUle izvlaenje - metoda kori邸tenja odnose izmeu varijabli uspostaviti neku vrstu rule
 DATA vizualizacija - vrsta tehnike koje mogu pomoi nas objasniti (Razumjeti) trendovi i
slo転enost u podacima mnogo lak邸e
Metode rudarenja podataka
Naje邸e se koristi u zdravstvene znanosti
 Logistika regresija (LR)
 Podr邸ka Vector Machine (SVM)
 Appriori i druge pravilo udruga rudarstvu (AR)
 Odluka Tree algoritmi (DT)
 algoritmi Klasifikacija: K-sredstva, mjeriteljstvo (Samoorganizacija MAP) Naivni
Bayesov
 Arteficial Neuronske mre転e (ANN)
Ipak, kombinacija tehnika mo転e elicite odreenu rudarski funkciju
Tehnike Korisnost
Appriori
& Rast FP
Udruga pravilo rudarstvo za uestale seta opcije
(primjerice bolesti) u medicinskim bazama podataka
ANN
& Genetski algoritam
Izvlaenje uzoraka
otkrivanje trendove
Classifcation
Rje邸enje Tree algoritmi (ID3, C4, C5, CART) podr邸ku odluivanja
Klasifikacija
Kombinirana upotreba K-sredstva, SOm-naive Bayes Tono razvrstavanje
Kombinacija SVM, Ann i ID3 Klasifikacija
Logistika regresija (LR)
 Popularna metoda za klasifikaciju pojedinaca, s obzirom na vrijednosti skupa nezavisnih
varijabli
 Hoe li predmet oboljeti od dijabetesa?
 Hoe li subjekt reagira na tretman?
 Ona procjenjuje vjerojatnost da individaul je u odreenoj skupini
 LR ne ini nikakve pretpostavke o normalnosti, linearnosti i homogenosti varijance za
nezavisne varijable
Sl. 1. Logistika regresija krivulja
 Value proizvedena logistike regresije je Vrijednost vjerojatnosti izmeu 0.0 i 1.0
 Ako je vjerojatnost za lanstvo u grupi u modelirani kategoriji iznad nekog rez toke (zadana je
0,50) - subjekt je predvieno da se lan skupine modeliranog
 Ako je vjerojatnost ispod toke rez - subjekt je predvieno da se lan druge skupine
-7.5 -5 -2.5 2.5 5 7.5
0.2
0.4
0.6
0.8
1
Testiranje LR modela predstave (stane do niza podataka)
 Testiranje modela, ovisno o vjerojatnosti p
 ROC krivulje
 statistika C
 Ginijev koeficijent
 KS test
 Testiranje modela, ovisno o cuf-off vrijednosti
 Osjetljivost (istina pozitivna stopa)
 Specifinost (istina negativna stopa)
 Tonost
 pogre邸ka tipa I (dijabetes pogre邸nog prepoznavanja u)
 gre邸ka tipa II (Pogre邸nog prepoznavanja u zdravih)
Linearni vs logistika regresija modela
 U Linearna regresija - ishod (ovisna varijabla) je kontinuirano - to mo転e imati bilo koju
od beskonanog broja moguih vrijednosti.
 U logistika regresija - ishod (zavisna varijabla) ima samo ogranien broj moguih
vrijednosti - to je koristi kada varijabla odgovor je kategorian u prirodi
 Logistika model je neizbje転na ako se uklapa podaci puno bolje nego linearnog modela
 jan mnoge situacije - je linearni model odgovara samo kao dobro, ili gotovo kao i
logistiki model
 U stvari, u mnogim situacijama, linearna i logistiki model daje rezultate koji su praktiki
ne razlikuju
Sl. 2. Linearni vs logistika regresija modelu
Linearni model pretpostavlja da je vjerojatnost p je linearna funkcija regresora
Tli on logistiki model pretpostavlja da je log izgledi p/ (1p) je linearna funkcija regresora
Podr邸ka Vector Machine
 Nadzirani postupak ML
 Za klasifikaciju i regresijskih izazova (uglavnom za razvrstavanje)
 Princip algoritam polaganja:
 EACH dio podataka ucrtava se kao toka u n-dimenzionalni prostor (n= numbra znaajki
su varible posjeduju) S vrijednosti svakog znaajke se vrijednost odreenog koordinata
 Zatim, klasifikacija se izvodi - po pronala転enju hiper-ravnina koje diferencirajua dvije klase
vrlo dobro
nadzirana ML bez nadzora ML
Bojnik dio od praktine ML koristi nadziranog uenja
Kada postoji ulazne varijable (X) i izlazna varijabla (Y) - AIgorithm koristi se kako bi
saznali funkcije mapiranja od ulaza do izlaza: Y = f (X)
Cilj je pribli転iti funkciju mapiranje tako dobro da kada imate nove ulazne podatke (x) -
mo転ete predvidjeti izlazne varijable (Y) za tim podacima
To se zove nadzirano uenje, jer je proces algoritma uenja iz trening skupa podataka
se mo転e shvatiti kao nastavnik nadzor procesa uenja.
Znamo tone odgovore, algoritam iterativno ini predvianja na podacima trening i
korigira strane nastavnika
Uenje se zaustavlja kada je algoritam posti転e prihvatljivu razinu performansi
Nadgledana problemi u uenju mogu se grupirati u regresije i klasifikacijskih
problema
Klasifikacija - kada je izlazna varijabla je kategorija, kao 邸to su bolesti i bez
Regresija - kada je izlazna varijabla je realna vrijednost, kao 邸to je te転ina
uobiajene metode od Supervised ML su:
Linearna regresija - za probleme regresijskih
Sluajna 邸uma - za klasifikaciju i regresijskih problema
Podr邸ka vektorske strojevi -za probleme klasifikacije
Kada su only ulaznih podataka (X) i bez odgovarajue
izlazne varijable
Cilj je model temeljne strukture ili distribucije u podacima -
kako bi saznali vi邸e o podacima
to je zove bez nadzora uenja jer za razliku od nadzirane
uenja - nema znan odgovoriti i nema nastavnik
Algoritmi su prepu邸teni vlastitim napravama za otkrivanjem
i predstavljanjem zanimljiv strukture u podacima
Bez nadzora problemi u uenju mogu se grupirati u klastera
i udruga problema
grupiranje - kada je problem otkriti inherentne grupiranja u
u podacima, kao 邸to su grupiranje kupnjom pona邸anje
asocijacija - kada je problem otkriti pravila koja opisuju
velike dijelove va邸ih podataka
uobiajene metode od Unsupervised ML su:
k-sredstva - za probleme klastera
Apriorno algoritam - za pravila udruga pote邸koama u
uenju
Appriori algoritam (AA)
/ Druga udruga Pravilo Rudarstvo (ARM)
 ARM - tehnika otkriti kako stavke povezane su meusobno
 AA - mpreostala association rmodule, izmeu esta jeETS artikala u lARGE databases (Sl. 3)
Stablo odluivanja (DT) algoritmi
 U nadziranih algoritama uenja
 Za klasifikaciju i regresijskih problema
 DT algoritam poku邸ava rije邸iti problem pomou prikaz stabla (Sl. 4)
 A dijagram toka strukturu nalik (Sl.)
 EACH unutarnji vor predstavlja test za atribut
 EACH grana predstavlja ishod testa
 EACH list ( terminal vor) ima oznaku klase
 Najvi邸i u vor drvo korijen vor
 Postoje mnoge specifine odluka-algoritmi drvo
Sl. 4. DT algoritam simulirati brancing logiku stabla
Slika 5. DT-based rezultati klasifikacije
(Osobna arhiva)
Arteficial Neuronske mre転e (ANN)
 A metoda umjetne inteligencije inspirirana po i strukturiran ljudski mozak
 To je ML & DM metoda - metoda koja ue na primjerima
 Koristi retrospektivne podatke
 To se mo転e koristiti za predvianje, razvrstavanje i raspoznavanje uzoraka (npr association
problemi)
 Prediction - brojana vrijednost je predviena kao izlaz (npr krvni tlak, dob i sl) i MSE ili RMSE
pogre邸ka se koristi kao mjera evaluacije izvedbe modela
 Classification - predmeti se dodjeljuju u dvije ili vi邸e kategorija izlaza (npr prisutnost /
odsutnost bolesti, rezultat lijeenja, itd), a brzina klasifikacija se koristi kao mjera ocjenjivanje
izvedbe modela
 ANNS pokazala uspjeh u modeliranju situacija u stvarnom svijetu, tako da se mogu koristiti iu
istra転ivake svrhe i za praktinu uporabu kao podr邸ka odluivanju ili simulacijski alat
Biolo邸ka vs Arteficial neuronske mre転e
(Sl. 6)
 Neuronska mre転a - consists meusobno povezanih biolo邸kih neurona
 Biolo邸ki neuronske - A stanica koje primajua podaci iz drugih neurona putem dendrita, postupakes to i
poslatia impuls putem aksona i sinapsi drugim neuronima u mre転i
 Lzarada - provodi se promjenom te転inama sinaptikih veza - millions neurona mo転e paralelno obrade
informacija
 Umjetna neuronska mre転a
 predstavlja artificial neuron - procesorska jedinica (varijabilni) koji prima ulazni podatak od drugih
varijabli, pretvara ulaz prema formuli i 邸alje izlaz drugih varijabli
 Uenje - provodi se promjenom vrijednosti te転ine varijabli (te転ina wji se promi邸lja kojim se mno転e ulaza)
Slika 6. -, biolo邸ki vs arteficial NN
Slika 7., - Generalizacija sposobnost ANN modela treba ispitati
 Ona does ne osloniti na rezultata dobiti na jednom uzorku - mnogo iteracija uenja
na treningu postaviti odvijati u sredini (skrivenog) sloj - boravak izmeu ulaznih i
izlaznih slojeva
Kriteriji za razlikovanje Ann algoritme
 Brojlanice koja slojeva
 Type uenja
 Nadzorom - rEAL izlazne vrijednosti su poznati iz pro邸losti i pod uvjetom da se u setu podataka
 Bez nadzora - rEAL izlazne vrijednosti nisu poznati, a koji nisu predvieni u skup podataka, te mre転e koriste
se za klaster podataka u grupama po karakteristikama
 Type veza izmeu neurona
 Connection meu ulaznih i izlaznih podataka
 janput i funkcije za prijenos
 TIME karakteristike
 Lzarada vrijeme
 itd
II. Moderni raunalo-based metode
 Graf-based DM
 Vizualizacija podataka i Visual Analytics
 topolo邸ki DM
 Sline tehnike koje se mogu koristiti za organiziranje vrlo slo転ene i heterogenih
podataka
 Podaci mogu biti vrlo moanako zapravo mo転ete shvatiti 邸to to vam govorim
 To nije lako dobiti jasne takeaways gledajui pobio brojeva i statistika - potrebno je
ton podaci predstavljeni u logike, lako razumljiv nain - that`s situaciji kada za
ulazak neke od tih tehnika
Graf-based DM
 Da bi se primijenila graf-based data mining tehnike, kao 邸to su razvrstavanje i grupiranje -
potrebno je definirati mjere blizine izmeu podataka predstavljenih u grafu (Sl. 8. i 9.)
 Postoji nekoliko mjera u-graf blizina
 Hyperlink izazvana Tema pretrage (hitova)
 Neumannovim Kernel (NK)
 Zajedniki najbli転eg susjeda (SNN)
Slika 8. -. Definiranje blizine mjera omoguuje strukturu vidljiv
Tokasto pokazuju slinost sa -1 do 1
Slika 9. -. Izvor dijagram pomou mjera NK-blizine
- N1 ... N8 vrhova (lanci)
- rubovi pokazuju citat
Navod Matrix C mogu formirati - Ako rub izmeu dva vrha postoji onda
je matrica stanica = 1 ostali = 0
Slika 10. -. Kako generalizirati matematiki
uzorak dalmatinskoga psa?
Vizualizacija podataka
 ovjek mozak obrauje vizualne informacije bolje nego 邸to obrauje tekst - tako
po uporabu dijagrama, grafikona i elemente dizajna - vizualizaciju podataka mo転e
pomoi nas objasniti (Razumjeti) trendovi i statistika puno lak邸e (Sl. 10.)
Slika 10. -. Struktura stanovni邸tva po dobi - commoly koristi postupak
vizualizacije podataka u javnoj zdravstvenoj domeni
vizualizacija podataka
 Uzorci podataka o miniranosti su toliko velika da je tokasto i histogrami e esto
pada kratko predstavlja nikakvu informaciju o realnoj vrijednosti (Sl, 11.)
 Upravo iz tog razloga, analitiari bave data mining stalno tra転e bolje naine za
grafiki predstavlja podatke
 Bez obzira alati analitiari e imati na dohvat ruke - obrasci i modeli koji se minirana
e biti samo dobre kvalitete kao podatke koji ga se izveden iz
Slika 11. -. Izrada graf jednostavniji i lak邸i za razumijevanje
domene od primjene Vizualizacija podataka i Visual Analytics
Tehnike
 Vizualizacija velika, kompleks, multivarijatni biolo邸ke mre転e
 Vizualni tekst analitike i klasificirati relevantne srodne poslove na biolo邸kih entiteta
u publikaciji baze (npr PubMed)
 Vizualizacija za upoznavanje heterogenih podataka
i podaci iz vi邸e izvora podataka
 Visual analitika 邸to je podr邸ka za razumijevanje nesigurnost
i pitanje kvalitete podataka
Slika 12. -. Slo転eni podaci vizualni analitika raunalo-based alat
(Osobna arhiva)
Slika 13., - Prvo vizualizacija the ljudski
Protein-Protein-janteraction struktura
topolo邸ki DM
 Applying topolo邸kih tehnike za DM KDD je vrue i obeavajue budunosti podruje
istra転ivanja.
 Topologija ima svoje korijene jan teoretski matematike, a within zadnji desetljee,
raunalna topologija brzo stjee zanimanje meu raunalnih znanstvenika.
 To je prouavanje apstraktnih oblika i prostora i preslikavanja meu njima. Nastao je iz
prouavanja geometrije i teorija skupova.
 Topolo邸kih metode mogu se primijeniti na podatke koje predstavljaju toke oblacima,
odnosno konanih podskupova ndimenzionalnim euklidska prostora.
 Ton unos predstavljen s na uzorku od nekog nepoznatog prostora koji se 転eli
rekonstruirati i razumjeti,
 Distinguishing izmeu okoline (ule転i邸tenja) dimenzija n, A pravi dimenzija podataka od
primarnog interesa prema razumijevanju unutarnju strukturu podataka.
topolo邸ki DM
 Geometrijski i topolo邸ki metode su alati omoguujebrzo analizirati vrlo slo転eno podataka
 Moderna znanost podataka koristi topolo邸kih metode kako bi prona邸li strukturne znaajke
skupova podataka prije daljnje nadzorom ili bez nadzora analiza
 Matematiki formalizam, koji je razvijen za ugradnju geometrijskih i topolo邸kih tehnika, bavi
setovima toka oblak podataka, odnosno konanim skupom toaka
 Toke oblaci su konani uzorci uzeti s geometrijskog objekta
 Tools iz razliitih grana geometrija i topologija zatim se koriste za studija toka setovi oblak
podataka
 Topologija pru転a formalni jezik za kvalitativne matematike, dok je geometrija uglavnom
kvantitativna.
 Topology klinacih godina Odnosi blizini ili blizine, jer geometrija mo転e se smatrati prouavanje
funkcija udaljenosti
 Ove metode stvoriti sa転etak ili komprimirani zastupljenost sve znaajke podataka kako bi se brzo
otkriti odreene obrasce i odnose u podacima.
 Ideja o izgradnji sa転etke cijelog podruja atributa ukljuuje razumijevanje odnosa izmeu
topolo邸kih i geometrijske objekte izgraene iz podataka koje koriste razne mogunosti
topolo邸ki DM
 Sl. 14.
 Oblikovanje raunalne
strukturu (dolje) iz oblika koji
se 転eli rekonstruirati i
razumjeti (iznad)

More Related Content

More from improvemed (20)

2019 2020 predavanje letenje, ronjenje drenjancevic
2019 2020 predavanje letenje, ronjenje drenjancevic2019 2020 predavanje letenje, ronjenje drenjancevic
2019 2020 predavanje letenje, ronjenje drenjancevic
improvemed
In vitro models of hepatotoxicity
In vitro models of hepatotoxicityIn vitro models of hepatotoxicity
In vitro models of hepatotoxicity
improvemed
Etiology of liver diseases
Etiology of liver diseasesEtiology of liver diseases
Etiology of liver diseases
improvemed
An introduction to experimental epidemiology
An introduction to experimental epidemiology An introduction to experimental epidemiology
An introduction to experimental epidemiology
improvemed
Genotyping methods of nosocomial infections pathogen
Genotyping methods of nosocomial infections pathogenGenotyping methods of nosocomial infections pathogen
Genotyping methods of nosocomial infections pathogen
improvemed
Use of MALDI-TOF in the diagnosis of infectious diseases
Use of MALDI-TOF in the diagnosis of infectious diseasesUse of MALDI-TOF in the diagnosis of infectious diseases
Use of MALDI-TOF in the diagnosis of infectious diseases
improvemed
Molecular microbiology methods
Molecular microbiology methodsMolecular microbiology methods
Molecular microbiology methods
improvemed
Isolated vascular rings
Isolated vascular ringsIsolated vascular rings
Isolated vascular rings
improvemed
Isolated blood vessels
Isolated blood vesselsIsolated blood vessels
Isolated blood vessels
improvemed
Notes for Measuring blood flow and reactivity of the blood vessels in the ski...
Notes for Measuring blood flow and reactivity of the blood vessels in the ski...Notes for Measuring blood flow and reactivity of the blood vessels in the ski...
Notes for Measuring blood flow and reactivity of the blood vessels in the ski...
improvemed
Notes for STAINING AND ANALYSIS of HISTOLOGICAL PREPARATIONS
Notes for STAINING AND ANALYSIS of HISTOLOGICAL PREPARATIONSNotes for STAINING AND ANALYSIS of HISTOLOGICAL PREPARATIONS
Notes for STAINING AND ANALYSIS of HISTOLOGICAL PREPARATIONS
improvemed
Notes for Fixation of tissues and organs for educational and scientific purposes
Notes for Fixation of tissues and organs for educational and scientific purposesNotes for Fixation of tissues and organs for educational and scientific purposes
Notes for Fixation of tissues and organs for educational and scientific purposes
improvemed
Notes for
Notes for Notes for
Notes for
improvemed
Notes for The principle and performance of capillary electrophoresis
Notes for The principle and performance of capillary electrophoresisNotes for The principle and performance of capillary electrophoresis
Notes for The principle and performance of capillary electrophoresis
improvemed
Notes for The principle and performance of liquid chromatographymass spectro...
Notes for The principle and performance of liquid chromatographymass spectro...Notes for The principle and performance of liquid chromatographymass spectro...
Notes for The principle and performance of liquid chromatographymass spectro...
improvemed
Notes for Cell Culture Basic Techniques
Notes for Cell Culture Basic TechniquesNotes for Cell Culture Basic Techniques
Notes for Cell Culture Basic Techniques
improvemed
Big datasets
Big datasetsBig datasets
Big datasets
improvemed
Systems biology for Medicine' is 'Experimental methods and the big datasets
Systems biology for Medicine' is 'Experimental methods and the big datasetsSystems biology for Medicine' is 'Experimental methods and the big datasets
Systems biology for Medicine' is 'Experimental methods and the big datasets
improvemed
Systems biology for medical students/Systems medicine
Systems biology for medical students/Systems medicineSystems biology for medical students/Systems medicine
Systems biology for medical students/Systems medicine
improvemed
Use cases
Use casesUse cases
Use cases
improvemed
2019 2020 predavanje letenje, ronjenje drenjancevic
2019 2020 predavanje letenje, ronjenje drenjancevic2019 2020 predavanje letenje, ronjenje drenjancevic
2019 2020 predavanje letenje, ronjenje drenjancevic
improvemed
In vitro models of hepatotoxicity
In vitro models of hepatotoxicityIn vitro models of hepatotoxicity
In vitro models of hepatotoxicity
improvemed
Etiology of liver diseases
Etiology of liver diseasesEtiology of liver diseases
Etiology of liver diseases
improvemed
An introduction to experimental epidemiology
An introduction to experimental epidemiology An introduction to experimental epidemiology
An introduction to experimental epidemiology
improvemed
Genotyping methods of nosocomial infections pathogen
Genotyping methods of nosocomial infections pathogenGenotyping methods of nosocomial infections pathogen
Genotyping methods of nosocomial infections pathogen
improvemed
Use of MALDI-TOF in the diagnosis of infectious diseases
Use of MALDI-TOF in the diagnosis of infectious diseasesUse of MALDI-TOF in the diagnosis of infectious diseases
Use of MALDI-TOF in the diagnosis of infectious diseases
improvemed
Molecular microbiology methods
Molecular microbiology methodsMolecular microbiology methods
Molecular microbiology methods
improvemed
Isolated vascular rings
Isolated vascular ringsIsolated vascular rings
Isolated vascular rings
improvemed
Isolated blood vessels
Isolated blood vesselsIsolated blood vessels
Isolated blood vessels
improvemed
Notes for Measuring blood flow and reactivity of the blood vessels in the ski...
Notes for Measuring blood flow and reactivity of the blood vessels in the ski...Notes for Measuring blood flow and reactivity of the blood vessels in the ski...
Notes for Measuring blood flow and reactivity of the blood vessels in the ski...
improvemed
Notes for STAINING AND ANALYSIS of HISTOLOGICAL PREPARATIONS
Notes for STAINING AND ANALYSIS of HISTOLOGICAL PREPARATIONSNotes for STAINING AND ANALYSIS of HISTOLOGICAL PREPARATIONS
Notes for STAINING AND ANALYSIS of HISTOLOGICAL PREPARATIONS
improvemed
Notes for Fixation of tissues and organs for educational and scientific purposes
Notes for Fixation of tissues and organs for educational and scientific purposesNotes for Fixation of tissues and organs for educational and scientific purposes
Notes for Fixation of tissues and organs for educational and scientific purposes
improvemed
Notes for The principle and performance of capillary electrophoresis
Notes for The principle and performance of capillary electrophoresisNotes for The principle and performance of capillary electrophoresis
Notes for The principle and performance of capillary electrophoresis
improvemed
Notes for The principle and performance of liquid chromatographymass spectro...
Notes for The principle and performance of liquid chromatographymass spectro...Notes for The principle and performance of liquid chromatographymass spectro...
Notes for The principle and performance of liquid chromatographymass spectro...
improvemed
Notes for Cell Culture Basic Techniques
Notes for Cell Culture Basic TechniquesNotes for Cell Culture Basic Techniques
Notes for Cell Culture Basic Techniques
improvemed
Big datasets
Big datasetsBig datasets
Big datasets
improvemed
Systems biology for Medicine' is 'Experimental methods and the big datasets
Systems biology for Medicine' is 'Experimental methods and the big datasetsSystems biology for Medicine' is 'Experimental methods and the big datasets
Systems biology for Medicine' is 'Experimental methods and the big datasets
improvemed
Systems biology for medical students/Systems medicine
Systems biology for medical students/Systems medicineSystems biology for medical students/Systems medicine
Systems biology for medical students/Systems medicine
improvemed

92hr

  • 1. INTEREG Projekt Biomedicinska informatika Ljiljana Majnari Trtica II. Osnovni teaj raunalnih metoda
  • 2. I. Data Mining DM se definira kao proces tra転enja zanimljiv ili vrijedne informacije (uzoraka) unutar velike baze podataka Na prvi pogled, ova definicija inia vi邸e kao novo ime za statistiku Meutim, DM je upravo izveden na skupovima podataka koji su daleko vei od statistike metode mogu tono analizirati
  • 3. Metode rudarenja podataka DM ukljuuje metode koje su na raskri転ju arteficial inteligencije, strojnog uenja, statistike i sustava baza podataka Ponekad, ove metode podr転ao smanjenje dimenzionalnosti, tako mapiranje skup maksimalno informativnih dimenzija Ponekad, oni predstavljaju odreene matematike modele esto, kombinacija metoda se koristi za rje邸avanje problema
  • 4. Metode rudarenja podataka U osnovi, obrasci esto su definirani u odnosu na ukupnu modelu skupa podataka od kojeg je dobiven Tovdje su mnogi alati koji su ukljueni u analize podataka koje poma転u pronai ove strukture Neki od najva転nijih alata ukljuiti Clustering - in particioniranje skupove podataka mnogih sluajnih stvari u podskupove manje veliine koje pokazuju zajedni邸tvo izmeu njih - by gleda na klastere, analitiari su u stanju izvui statistike modele iz polja podataka Rizlaz - the nain od postavljanje krivulju kroz niz toaka pomou neke dobrote-of-fit kriterij - while ispitivanje predefiniranih dobrote-of-fit parametre - analitiari mogu pronai i opisati uzorke RUle izvlaenje - metoda kori邸tenja odnose izmeu varijabli uspostaviti neku vrstu rule DATA vizualizacija - vrsta tehnike koje mogu pomoi nas objasniti (Razumjeti) trendovi i slo転enost u podacima mnogo lak邸e
  • 5. Metode rudarenja podataka Naje邸e se koristi u zdravstvene znanosti Logistika regresija (LR) Podr邸ka Vector Machine (SVM) Appriori i druge pravilo udruga rudarstvu (AR) Odluka Tree algoritmi (DT) algoritmi Klasifikacija: K-sredstva, mjeriteljstvo (Samoorganizacija MAP) Naivni Bayesov Arteficial Neuronske mre転e (ANN)
  • 6. Ipak, kombinacija tehnika mo転e elicite odreenu rudarski funkciju Tehnike Korisnost Appriori & Rast FP Udruga pravilo rudarstvo za uestale seta opcije (primjerice bolesti) u medicinskim bazama podataka ANN & Genetski algoritam Izvlaenje uzoraka otkrivanje trendove Classifcation Rje邸enje Tree algoritmi (ID3, C4, C5, CART) podr邸ku odluivanja Klasifikacija Kombinirana upotreba K-sredstva, SOm-naive Bayes Tono razvrstavanje Kombinacija SVM, Ann i ID3 Klasifikacija
  • 7. Logistika regresija (LR) Popularna metoda za klasifikaciju pojedinaca, s obzirom na vrijednosti skupa nezavisnih varijabli Hoe li predmet oboljeti od dijabetesa? Hoe li subjekt reagira na tretman? Ona procjenjuje vjerojatnost da individaul je u odreenoj skupini LR ne ini nikakve pretpostavke o normalnosti, linearnosti i homogenosti varijance za nezavisne varijable
  • 8. Sl. 1. Logistika regresija krivulja Value proizvedena logistike regresije je Vrijednost vjerojatnosti izmeu 0.0 i 1.0 Ako je vjerojatnost za lanstvo u grupi u modelirani kategoriji iznad nekog rez toke (zadana je 0,50) - subjekt je predvieno da se lan skupine modeliranog Ako je vjerojatnost ispod toke rez - subjekt je predvieno da se lan druge skupine -7.5 -5 -2.5 2.5 5 7.5 0.2 0.4 0.6 0.8 1
  • 9. Testiranje LR modela predstave (stane do niza podataka) Testiranje modela, ovisno o vjerojatnosti p ROC krivulje statistika C Ginijev koeficijent KS test Testiranje modela, ovisno o cuf-off vrijednosti Osjetljivost (istina pozitivna stopa) Specifinost (istina negativna stopa) Tonost pogre邸ka tipa I (dijabetes pogre邸nog prepoznavanja u) gre邸ka tipa II (Pogre邸nog prepoznavanja u zdravih)
  • 10. Linearni vs logistika regresija modela U Linearna regresija - ishod (ovisna varijabla) je kontinuirano - to mo転e imati bilo koju od beskonanog broja moguih vrijednosti. U logistika regresija - ishod (zavisna varijabla) ima samo ogranien broj moguih vrijednosti - to je koristi kada varijabla odgovor je kategorian u prirodi Logistika model je neizbje転na ako se uklapa podaci puno bolje nego linearnog modela jan mnoge situacije - je linearni model odgovara samo kao dobro, ili gotovo kao i logistiki model U stvari, u mnogim situacijama, linearna i logistiki model daje rezultate koji su praktiki ne razlikuju
  • 11. Sl. 2. Linearni vs logistika regresija modelu Linearni model pretpostavlja da je vjerojatnost p je linearna funkcija regresora Tli on logistiki model pretpostavlja da je log izgledi p/ (1p) je linearna funkcija regresora
  • 12. Podr邸ka Vector Machine Nadzirani postupak ML Za klasifikaciju i regresijskih izazova (uglavnom za razvrstavanje) Princip algoritam polaganja: EACH dio podataka ucrtava se kao toka u n-dimenzionalni prostor (n= numbra znaajki su varible posjeduju) S vrijednosti svakog znaajke se vrijednost odreenog koordinata Zatim, klasifikacija se izvodi - po pronala転enju hiper-ravnina koje diferencirajua dvije klase vrlo dobro
  • 13. nadzirana ML bez nadzora ML Bojnik dio od praktine ML koristi nadziranog uenja Kada postoji ulazne varijable (X) i izlazna varijabla (Y) - AIgorithm koristi se kako bi saznali funkcije mapiranja od ulaza do izlaza: Y = f (X) Cilj je pribli転iti funkciju mapiranje tako dobro da kada imate nove ulazne podatke (x) - mo転ete predvidjeti izlazne varijable (Y) za tim podacima To se zove nadzirano uenje, jer je proces algoritma uenja iz trening skupa podataka se mo転e shvatiti kao nastavnik nadzor procesa uenja. Znamo tone odgovore, algoritam iterativno ini predvianja na podacima trening i korigira strane nastavnika Uenje se zaustavlja kada je algoritam posti転e prihvatljivu razinu performansi Nadgledana problemi u uenju mogu se grupirati u regresije i klasifikacijskih problema Klasifikacija - kada je izlazna varijabla je kategorija, kao 邸to su bolesti i bez Regresija - kada je izlazna varijabla je realna vrijednost, kao 邸to je te転ina uobiajene metode od Supervised ML su: Linearna regresija - za probleme regresijskih Sluajna 邸uma - za klasifikaciju i regresijskih problema Podr邸ka vektorske strojevi -za probleme klasifikacije Kada su only ulaznih podataka (X) i bez odgovarajue izlazne varijable Cilj je model temeljne strukture ili distribucije u podacima - kako bi saznali vi邸e o podacima to je zove bez nadzora uenja jer za razliku od nadzirane uenja - nema znan odgovoriti i nema nastavnik Algoritmi su prepu邸teni vlastitim napravama za otkrivanjem i predstavljanjem zanimljiv strukture u podacima Bez nadzora problemi u uenju mogu se grupirati u klastera i udruga problema grupiranje - kada je problem otkriti inherentne grupiranja u u podacima, kao 邸to su grupiranje kupnjom pona邸anje asocijacija - kada je problem otkriti pravila koja opisuju velike dijelove va邸ih podataka uobiajene metode od Unsupervised ML su: k-sredstva - za probleme klastera Apriorno algoritam - za pravila udruga pote邸koama u uenju
  • 14. Appriori algoritam (AA) / Druga udruga Pravilo Rudarstvo (ARM) ARM - tehnika otkriti kako stavke povezane su meusobno AA - mpreostala association rmodule, izmeu esta jeETS artikala u lARGE databases (Sl. 3)
  • 15. Stablo odluivanja (DT) algoritmi U nadziranih algoritama uenja Za klasifikaciju i regresijskih problema DT algoritam poku邸ava rije邸iti problem pomou prikaz stabla (Sl. 4) A dijagram toka strukturu nalik (Sl.) EACH unutarnji vor predstavlja test za atribut EACH grana predstavlja ishod testa EACH list ( terminal vor) ima oznaku klase Najvi邸i u vor drvo korijen vor Postoje mnoge specifine odluka-algoritmi drvo
  • 16. Sl. 4. DT algoritam simulirati brancing logiku stabla
  • 17. Slika 5. DT-based rezultati klasifikacije (Osobna arhiva)
  • 18. Arteficial Neuronske mre転e (ANN) A metoda umjetne inteligencije inspirirana po i strukturiran ljudski mozak To je ML & DM metoda - metoda koja ue na primjerima Koristi retrospektivne podatke To se mo転e koristiti za predvianje, razvrstavanje i raspoznavanje uzoraka (npr association problemi) Prediction - brojana vrijednost je predviena kao izlaz (npr krvni tlak, dob i sl) i MSE ili RMSE pogre邸ka se koristi kao mjera evaluacije izvedbe modela Classification - predmeti se dodjeljuju u dvije ili vi邸e kategorija izlaza (npr prisutnost / odsutnost bolesti, rezultat lijeenja, itd), a brzina klasifikacija se koristi kao mjera ocjenjivanje izvedbe modela ANNS pokazala uspjeh u modeliranju situacija u stvarnom svijetu, tako da se mogu koristiti iu istra転ivake svrhe i za praktinu uporabu kao podr邸ka odluivanju ili simulacijski alat
  • 19. Biolo邸ka vs Arteficial neuronske mre転e (Sl. 6) Neuronska mre転a - consists meusobno povezanih biolo邸kih neurona Biolo邸ki neuronske - A stanica koje primajua podaci iz drugih neurona putem dendrita, postupakes to i poslatia impuls putem aksona i sinapsi drugim neuronima u mre転i Lzarada - provodi se promjenom te転inama sinaptikih veza - millions neurona mo転e paralelno obrade informacija Umjetna neuronska mre転a predstavlja artificial neuron - procesorska jedinica (varijabilni) koji prima ulazni podatak od drugih varijabli, pretvara ulaz prema formuli i 邸alje izlaz drugih varijabli Uenje - provodi se promjenom vrijednosti te転ine varijabli (te転ina wji se promi邸lja kojim se mno転e ulaza)
  • 20. Slika 6. -, biolo邸ki vs arteficial NN
  • 21. Slika 7., - Generalizacija sposobnost ANN modela treba ispitati Ona does ne osloniti na rezultata dobiti na jednom uzorku - mnogo iteracija uenja na treningu postaviti odvijati u sredini (skrivenog) sloj - boravak izmeu ulaznih i izlaznih slojeva
  • 22. Kriteriji za razlikovanje Ann algoritme Brojlanice koja slojeva Type uenja Nadzorom - rEAL izlazne vrijednosti su poznati iz pro邸losti i pod uvjetom da se u setu podataka Bez nadzora - rEAL izlazne vrijednosti nisu poznati, a koji nisu predvieni u skup podataka, te mre転e koriste se za klaster podataka u grupama po karakteristikama Type veza izmeu neurona Connection meu ulaznih i izlaznih podataka janput i funkcije za prijenos TIME karakteristike Lzarada vrijeme itd
  • 23. II. Moderni raunalo-based metode Graf-based DM Vizualizacija podataka i Visual Analytics topolo邸ki DM Sline tehnike koje se mogu koristiti za organiziranje vrlo slo転ene i heterogenih podataka Podaci mogu biti vrlo moanako zapravo mo転ete shvatiti 邸to to vam govorim To nije lako dobiti jasne takeaways gledajui pobio brojeva i statistika - potrebno je ton podaci predstavljeni u logike, lako razumljiv nain - that`s situaciji kada za ulazak neke od tih tehnika
  • 24. Graf-based DM Da bi se primijenila graf-based data mining tehnike, kao 邸to su razvrstavanje i grupiranje - potrebno je definirati mjere blizine izmeu podataka predstavljenih u grafu (Sl. 8. i 9.) Postoji nekoliko mjera u-graf blizina Hyperlink izazvana Tema pretrage (hitova) Neumannovim Kernel (NK) Zajedniki najbli転eg susjeda (SNN)
  • 25. Slika 8. -. Definiranje blizine mjera omoguuje strukturu vidljiv Tokasto pokazuju slinost sa -1 do 1
  • 26. Slika 9. -. Izvor dijagram pomou mjera NK-blizine - N1 ... N8 vrhova (lanci) - rubovi pokazuju citat Navod Matrix C mogu formirati - Ako rub izmeu dva vrha postoji onda je matrica stanica = 1 ostali = 0
  • 27. Slika 10. -. Kako generalizirati matematiki uzorak dalmatinskoga psa?
  • 28. Vizualizacija podataka ovjek mozak obrauje vizualne informacije bolje nego 邸to obrauje tekst - tako po uporabu dijagrama, grafikona i elemente dizajna - vizualizaciju podataka mo転e pomoi nas objasniti (Razumjeti) trendovi i statistika puno lak邸e (Sl. 10.) Slika 10. -. Struktura stanovni邸tva po dobi - commoly koristi postupak vizualizacije podataka u javnoj zdravstvenoj domeni
  • 29. vizualizacija podataka Uzorci podataka o miniranosti su toliko velika da je tokasto i histogrami e esto pada kratko predstavlja nikakvu informaciju o realnoj vrijednosti (Sl, 11.) Upravo iz tog razloga, analitiari bave data mining stalno tra転e bolje naine za grafiki predstavlja podatke Bez obzira alati analitiari e imati na dohvat ruke - obrasci i modeli koji se minirana e biti samo dobre kvalitete kao podatke koji ga se izveden iz
  • 30. Slika 11. -. Izrada graf jednostavniji i lak邸i za razumijevanje
  • 31. domene od primjene Vizualizacija podataka i Visual Analytics Tehnike Vizualizacija velika, kompleks, multivarijatni biolo邸ke mre転e Vizualni tekst analitike i klasificirati relevantne srodne poslove na biolo邸kih entiteta u publikaciji baze (npr PubMed) Vizualizacija za upoznavanje heterogenih podataka i podaci iz vi邸e izvora podataka Visual analitika 邸to je podr邸ka za razumijevanje nesigurnost i pitanje kvalitete podataka
  • 32. Slika 12. -. Slo転eni podaci vizualni analitika raunalo-based alat (Osobna arhiva)
  • 33. Slika 13., - Prvo vizualizacija the ljudski Protein-Protein-janteraction struktura
  • 34. topolo邸ki DM Applying topolo邸kih tehnike za DM KDD je vrue i obeavajue budunosti podruje istra転ivanja. Topologija ima svoje korijene jan teoretski matematike, a within zadnji desetljee, raunalna topologija brzo stjee zanimanje meu raunalnih znanstvenika. To je prouavanje apstraktnih oblika i prostora i preslikavanja meu njima. Nastao je iz prouavanja geometrije i teorija skupova. Topolo邸kih metode mogu se primijeniti na podatke koje predstavljaju toke oblacima, odnosno konanih podskupova ndimenzionalnim euklidska prostora. Ton unos predstavljen s na uzorku od nekog nepoznatog prostora koji se 転eli rekonstruirati i razumjeti, Distinguishing izmeu okoline (ule転i邸tenja) dimenzija n, A pravi dimenzija podataka od primarnog interesa prema razumijevanju unutarnju strukturu podataka.
  • 35. topolo邸ki DM Geometrijski i topolo邸ki metode su alati omoguujebrzo analizirati vrlo slo転eno podataka Moderna znanost podataka koristi topolo邸kih metode kako bi prona邸li strukturne znaajke skupova podataka prije daljnje nadzorom ili bez nadzora analiza Matematiki formalizam, koji je razvijen za ugradnju geometrijskih i topolo邸kih tehnika, bavi setovima toka oblak podataka, odnosno konanim skupom toaka Toke oblaci su konani uzorci uzeti s geometrijskog objekta Tools iz razliitih grana geometrija i topologija zatim se koriste za studija toka setovi oblak podataka Topologija pru転a formalni jezik za kvalitativne matematike, dok je geometrija uglavnom kvantitativna. Topology klinacih godina Odnosi blizini ili blizine, jer geometrija mo転e se smatrati prouavanje funkcija udaljenosti Ove metode stvoriti sa転etak ili komprimirani zastupljenost sve znaajke podataka kako bi se brzo otkriti odreene obrasce i odnose u podacima. Ideja o izgradnji sa転etke cijelog podruja atributa ukljuuje razumijevanje odnosa izmeu topolo邸kih i geometrijske objekte izgraene iz podataka koje koriste razne mogunosti
  • 36. topolo邸ki DM Sl. 14. Oblikovanje raunalne strukturu (dolje) iz oblika koji se 転eli rekonstruirati i razumjeti (iznad)