ºÝºÝߣ

ºÝºÝߣShare a Scribd company logo
Improved Medical Education in Basic
Sciences
for Better Medical Practicing
ImproveMEd
Rendszerbiológia orvostudományhoz
III. Hogyan elemezzük a nagy adatkészleteket?
A rendszerbiológiai tanulmányok
gyakran kezdenek expressziós
profillal (a gyógyszerrel kezelt, illetve
a nem kezelt sejtek, a normális
versus rákos sejtek, a különböző
fejlődési szakaszokban lévő sejtek) ...
microarray vagy RNAseq
használatával... microarray
használata költséghatékony
megközelítés ...
És ezt kapjuk
A microarray can fit 10 000 spots. Let’s assume that each
spot is a gene – how do we organize spots/genes in order
to extract result?
A laser scanner measures one fluorescent label than
another and superimpose one over another… each spot is
measured twice!
intensity of fluorescent signal = quantity of bound DNA
Each spot can be substituted with a number representing
relative change from ‘normal’ levels.
N = R/G …..1 means equal expression in both samples
R=red fluorescence (tumor)
G=green fluorescence (normal cell)
A színeket számokká alakítják, mert a számok könnyebben
kezelhetők!
Minden pont helyettesíthető egy olyan számmal, amely relatív
változást jelent a "normál" szintekről.
R = piros fluoreszcencia (tumor)
G = zöld fluoreszcencia (normál sejt)
N = R/G
N=1 egyenlő expresszió mindkét mintában
N›1 indukció
N‹1 repressuió
http://www.hhmi.org/biointeractive/how-analyze-dna-microarray-
data
http://www.hhmi.org/biointeractive/scanning-lifes-matrix-genes-
proteins-and-small-molecules
Több mintát hasonlíthatunk össze ...
vagy egyet időben követünk- humán
fibroblasztok szérummal stimulálva és
24 órán keresztül követve (Iyer et al.,
1999)
And organize genes so that
induced one are clustered at
one end-opposite from
repressed one…
Az adatok ilyenbemutatását Heat Map (Heat Map)
nevezzük
A nagy adatokból származó ismeretek
kibontásához statisztikai módszerekre
van szükségünk!
Gyakran használt - R statisztikai csomag
LIMMA
A klaszterek azonosításához
használhatunk - klaszterelemzést!
Eredeti számok logaritmizáltak (2-es
vagy 10-es bázissal), és a hasonlósági
pontszámok kiszámításánál a
microarray platformot kísérő
számítógépes program segítségével.
Az adatok vizuális megjelenítéséhez a
számokat színre cseréljük, de ezúttal a
zöld az repressziót, a vörös pedig az
indukciót jelenti.
Az adatok bemutatásának másik
módja a Volcano plot (a GWS
tanulmányok esetében gyakori).
Az adatokat a "szórvány-plot" -on
mutatjuk be, hogy gyorsan
megtalálhassuk a
legérdekesebbeket, pl. génjelölt
bizonyos betegségben.
Két statisztikai vizsgálatot
kombinál: egy p értéket egy
ANOVA modelltől a változás
nagyságával.
Az adatok gyors felismerése
(gének, stb.), Amelyek
nagymértékű, statisztikailag
szignifikáns változásokat mutatnak.
A p>0.05 &
p<0.05
közötti határ
A két mintában az azonos paraméterek közötti különbség "fold change"-
ként jelenik meg.
A szürke változások kisebbek, mint 2x.
http://genomicsclass.github.io/book/pages/using_limma.html
Statisztikai
szignifikancia
Érdekes adatok
Mind a Heat Map, mind a Volcano Plot (és a mögöttük álló
statisztikai elemzés) az első lépés a megfigyelt fenotípus
mögötti gének / fehérjék azonosítása és rangsorolása felé. A
megfigyelt mechanizmusokért vagy potenciális terápiás
célokért felelős gének listáját a különböző bioinformatikai
eszközök lehet feldolgozni.
The gene list can be fed into: Gene Ontology, géncsoport dúsulás
vizsgálata,
Transzkripciós faktor analízis…
A létrehozott listáknak az egyedi nómenklatúrát kell használniuk ahhoz, hogy kölcsönösen összehasonlíthatók legyenek.
Gene Ontology – http://geneontology.org/
Bioinformatikai eszköz, amely alkalmas arra, hogy a
megfelelő nevet hozzárendelje a szekvenciához és
összekapcsolja a molekuláris változásokat a
sejtfolyamatokkal
A gének és a fehérjék a legtöbb élő szervezetben
megmaradnak, és közös funkciók vannak. A gén szerepe az
egyik szervezetben segíthet a másikban betöltött
szerepének megvilágításában. A Gene Ontológia
Consortium foglalkozik a génnómenklatúrával.
A készleteket az alábbiak szerint szervezzük:
Biológiai folyamat
Molekuláris funkció
Celluláris rekesz
The Gene Ontology Consortium, Nature, 2000.
Biológiai folyamatok, például: sejtnövekedés,
proliferáció, transzláció vagy cAMP szintézis ...
Celluláris rekesz
Szülő
csomópontok
Gyermek
csomópontok
Rendszerszintű
ORF név
standard gén
név
GO biológia
folyamat
Molekuláris funkció
Celluláris rekesz
géncsoport dúsulás vizsgálata– GSEA
Analitikai módszer a génkészletek megtalálására és
értelmezésére.
Olyan géneket keres, amelyek együtt változnak
meghatározza az azonos jelátviteli útvonalon részt vevő
fehérjék szintjét
ugyanazon biológiai folyamatban részt vevő molekulákat
keresi
Ingyenes szoftvercsomag 1,325 biológiailag definiált
géncsoport kezdeti adatbázisával.
http://software.broadinstitute.org/gsea/index.jsp
Subramanian et al. (2005) PNAS 102:15545
1. Szortírozza a géneket egy kritérium, pl. expressziós szint
szerint
2. Hasonlítsa össze a listát egyes már létező listákkal, és
rendelje hozzá az egyes géneket az "erichrichment score" -
hez - a túlreprezentált vagy túlzottan csökkentett gének a
Kolmogorov-Smirnov típusú statisztikák szerint
3. A Max. Enrichment Score (MES) egy létező gén
relevancia-mutatója egy új adatkészlethez, amelyet most
vizsgálnak
Transzkripciós faktor analízis
Az expresszálódás szintjét megváltoztató géneket
ugyanaz a transzkripciós faktor szabályozhatja.
A géneket az omics adatok és az előzetes ismeretek
kombinálásával azonosítják.
A ChEA adatbázis jelenleg 159 transzkripciós faktort
kapcsol össze több mint 30 000 génnel - összesen
361 299 interakcióval -, amelyek 157 publikációból
származnak.
TRANSFAC, PAINT, JASPAR - egyéb adatbázisok a ChIP
számára
Kináz dúsítás elemzése (KEA)
Web alapú parancssori szoftver, amely összeköti az
emlős fehérjék listáját a protein kinázokkal, amelyek
valószínűleg foszforilizálják őket. Az adatbázis 436
kinázot és 14 374 interakciót tartalmaz 3469
publikációból.
http://amp.pharm.mssm.edu/Enrichr/
https://www.ncbi.nlm.nih.gov/pmc/articl
es/PMC2944209/
A transzkripciós faktorok egyidejűleg ugyanazon
promoteren működnek ...
A kromatin immunprecipitáció
egy választott módszer a
fehérjékkel kölcsönhatásban
lévő összes szekvencia
megtalálására. Az összes ChIP-
seq kísérletből származó adatok
ugyanabban az adatbázisban
(ChEA) táplálhatók
...https://galaxyproject.org/tutorials/chip/
Expression2Kinases –X2K
A szoftver, amely egyesíti a különböző
adatbázisokat és eszközöket.
INPUT: a különbözőképpen expresszált gének
listája
OUTPUT: protein kinázok, transzkripciós faktorok
és proteinkomplexek, amelyek a bejuttatott gének
feltételezett szabályozói.
Ilyen szoftverek felhasználásával hipotetikus
szabályozási útvonalakat építhetünk fel, és protein-
interakciós hálózatokat hozhatunk létre.
Az eredményeket kísérleti bizonyítékokkal is alá kell
támasztani!
The work-flow of X2K
Chen et al. (2012) Bioinformatics 28:105
Amit igazán akarunk az, hogy a listát hálózattá alakítsuk át -
gyakran használják a sejtösszetevők közötti kölcsönhatások
kimutatására
Euler, 1700s, Seven Bridges of Konigsberg
Csomópont
molekula
Él interakció
A rendszerbiológiához kapcsolódó hálózatok típusai
1. Sejt jelátviteli hálózatok
- rák jelátviteli hálózat
doi:10.1038/psp.2013.38
2. Protein-protein interakciós hálózatok
- Dystrophin fehérje-fehérje kereszteződések
http://parendogen677s10.weebly.com/protein-protein-interactions.html
3. Génszabályozó hálózatok
- A Drosophila szem fejlődése
- http://dev.biologists.org/content/140/1/82
Genes2Networks
Lists2Networks
Kombinálja a kísérleti adatokat (mRNS
expressziós mikroarray, genom-wide ChI-X,
RNAi screen, proteomika és
foszfoproteomika) minden ismert
kölcsönhatás (előzetes biológiai tudás)
http://www.lists2networks.org
Hogyan elemezzük a nagy adatkészleteket?
További szoftverek léteznek a hálózatok vizualizálásához és
elemzéséhez:
Pajek (Vladimir Batagelj & Andrej Mrvar, Ljubljana,
Slovenia)
http://vlado.fmf.uni-
lj.si/pub/networks/doc/gd.01/Pajek2.png
http://vlado.fmf.uni-lj.si/pub/networks/doc/pajek.pdf
Cytoscape (Trey Ideker, Shannon et al.,2003.))
http://www.cytoscape.org/
SNAVI (Ma’ayan et al. 2009)
yEd…..
Az útvonalak, alhálózatok, klaszterek, a hálózati sajátosságok
azonosítása ...
A molekuláris adatokat tovább lehetne
integrálni a strukturális adatokkal a 3D
modellek (makromolekuláris komplexek,
virtuális sejtek) előállítása érdekében.
Patwardhan és mtsai. 2017, DOI: 10,7554 /
eLife.25835
(plazmodiummal fertőzött eritrociták)
1. A statisztikai elemzés kritikus fontosságú a nagy adathalmazokról
szerzett tudásbővítés során. A statisztikai analízis a vizsgálat
szempontjából releváns gének / fehérjék / RNS-ek listáját állítja
elő.
2. A gének listáját a bioinformatikai eszközökbe lehet bevinni, és az
előzetes ismeretekkel kombinálva új elméleti utakat,
alhálózatokat, szabályozási mechanizmust találhatunk ...
3. A kísérleti nagy adathalmazok és a korábbi ismeretek (több
adatbázis) integrálása lehetővé teszi a fiziológiás funkciók,
patofiziológia vagy farmakokinetika sokrétű megértését.
4. A számítással előállított jóslatokat kísérletileg bizonyítani kell.

More Related Content

Hogyan elemezzük a nagy adatkészleteket?

  • 1. Improved Medical Education in Basic Sciences for Better Medical Practicing ImproveMEd Rendszerbiológia orvostudományhoz III. Hogyan elemezzük a nagy adatkészleteket?
  • 2. A rendszerbiológiai tanulmányok gyakran kezdenek expressziós profillal (a gyógyszerrel kezelt, illetve a nem kezelt sejtek, a normális versus rákos sejtek, a különbözÅ‘ fejlÅ‘dési szakaszokban lévÅ‘ sejtek) ... microarray vagy RNAseq használatával... microarray használata költséghatékony megközelítés ... És ezt kapjuk
  • 3. A microarray can fit 10 000 spots. Let’s assume that each spot is a gene – how do we organize spots/genes in order to extract result? A laser scanner measures one fluorescent label than another and superimpose one over another… each spot is measured twice! intensity of fluorescent signal = quantity of bound DNA Each spot can be substituted with a number representing relative change from ‘normal’ levels. N = R/G …..1 means equal expression in both samples R=red fluorescence (tumor) G=green fluorescence (normal cell)
  • 4. A színeket számokká alakítják, mert a számok könnyebben kezelhetÅ‘k! Minden pont helyettesíthetÅ‘ egy olyan számmal, amely relatív változást jelent a "normál" szintekrÅ‘l. R = piros fluoreszcencia (tumor) G = zöld fluoreszcencia (normál sejt) N = R/G N=1 egyenlÅ‘ expresszió mindkét mintában N›1 indukció N‹1 repressuió http://www.hhmi.org/biointeractive/how-analyze-dna-microarray- data http://www.hhmi.org/biointeractive/scanning-lifes-matrix-genes- proteins-and-small-molecules Több mintát hasonlíthatunk össze ... vagy egyet idÅ‘ben követünk- humán fibroblasztok szérummal stimulálva és 24 órán keresztül követve (Iyer et al., 1999) And organize genes so that induced one are clustered at one end-opposite from repressed one… Az adatok ilyenbemutatását Heat Map (Heat Map) nevezzük
  • 5. A nagy adatokból származó ismeretek kibontásához statisztikai módszerekre van szükségünk! Gyakran használt - R statisztikai csomag LIMMA A klaszterek azonosításához használhatunk - klaszterelemzést! Eredeti számok logaritmizáltak (2-es vagy 10-es bázissal), és a hasonlósági pontszámok kiszámításánál a microarray platformot kísérÅ‘ számítógépes program segítségével. Az adatok vizuális megjelenítéséhez a számokat színre cseréljük, de ezúttal a zöld az repressziót, a vörös pedig az indukciót jelenti.
  • 6. Az adatok bemutatásának másik módja a Volcano plot (a GWS tanulmányok esetében gyakori). Az adatokat a "szórvány-plot" -on mutatjuk be, hogy gyorsan megtalálhassuk a legérdekesebbeket, pl. génjelölt bizonyos betegségben. Két statisztikai vizsgálatot kombinál: egy p értéket egy ANOVA modelltÅ‘l a változás nagyságával. Az adatok gyors felismerése (gének, stb.), Amelyek nagymértékű, statisztikailag szignifikáns változásokat mutatnak. A p>0.05 & p<0.05 közötti határ A két mintában az azonos paraméterek közötti különbség "fold change"- ként jelenik meg. A szürke változások kisebbek, mint 2x. http://genomicsclass.github.io/book/pages/using_limma.html Statisztikai szignifikancia Érdekes adatok
  • 7. Mind a Heat Map, mind a Volcano Plot (és a mögöttük álló statisztikai elemzés) az elsÅ‘ lépés a megfigyelt fenotípus mögötti gének / fehérjék azonosítása és rangsorolása felé. A megfigyelt mechanizmusokért vagy potenciális terápiás célokért felelÅ‘s gének listáját a különbözÅ‘ bioinformatikai eszközök lehet feldolgozni. The gene list can be fed into: Gene Ontology, géncsoport dúsulás vizsgálata, Transzkripciós faktor analízis… A létrehozott listáknak az egyedi nómenklatúrát kell használniuk ahhoz, hogy kölcsönösen összehasonlíthatók legyenek.
  • 8. Gene Ontology – http://geneontology.org/ Bioinformatikai eszköz, amely alkalmas arra, hogy a megfelelÅ‘ nevet hozzárendelje a szekvenciához és összekapcsolja a molekuláris változásokat a sejtfolyamatokkal A gének és a fehérjék a legtöbb élÅ‘ szervezetben megmaradnak, és közös funkciók vannak. A gén szerepe az egyik szervezetben segíthet a másikban betöltött szerepének megvilágításában. A Gene Ontológia Consortium foglalkozik a génnómenklatúrával. A készleteket az alábbiak szerint szervezzük: Biológiai folyamat Molekuláris funkció Celluláris rekesz The Gene Ontology Consortium, Nature, 2000. Biológiai folyamatok, például: sejtnövekedés, proliferáció, transzláció vagy cAMP szintézis ...
  • 10. Rendszerszintű ORF név standard gén név GO biológia folyamat Molekuláris funkció Celluláris rekesz
  • 11. géncsoport dúsulás vizsgálata– GSEA Analitikai módszer a génkészletek megtalálására és értelmezésére. Olyan géneket keres, amelyek együtt változnak meghatározza az azonos jelátviteli útvonalon részt vevÅ‘ fehérjék szintjét ugyanazon biológiai folyamatban részt vevÅ‘ molekulákat keresi Ingyenes szoftvercsomag 1,325 biológiailag definiált géncsoport kezdeti adatbázisával. http://software.broadinstitute.org/gsea/index.jsp Subramanian et al. (2005) PNAS 102:15545 1. Szortírozza a géneket egy kritérium, pl. expressziós szint szerint 2. Hasonlítsa össze a listát egyes már létezÅ‘ listákkal, és rendelje hozzá az egyes géneket az "erichrichment score" - hez - a túlreprezentált vagy túlzottan csökkentett gének a Kolmogorov-Smirnov típusú statisztikák szerint 3. A Max. Enrichment Score (MES) egy létezÅ‘ gén relevancia-mutatója egy új adatkészlethez, amelyet most vizsgálnak
  • 12. Transzkripciós faktor analízis Az expresszálódás szintjét megváltoztató géneket ugyanaz a transzkripciós faktor szabályozhatja. A géneket az omics adatok és az elÅ‘zetes ismeretek kombinálásával azonosítják. A ChEA adatbázis jelenleg 159 transzkripciós faktort kapcsol össze több mint 30 000 génnel - összesen 361 299 interakcióval -, amelyek 157 publikációból származnak. TRANSFAC, PAINT, JASPAR - egyéb adatbázisok a ChIP számára Kináz dúsítás elemzése (KEA) Web alapú parancssori szoftver, amely összeköti az emlÅ‘s fehérjék listáját a protein kinázokkal, amelyek valószínűleg foszforilizálják Å‘ket. Az adatbázis 436 kinázot és 14 374 interakciót tartalmaz 3469 publikációból. http://amp.pharm.mssm.edu/Enrichr/ https://www.ncbi.nlm.nih.gov/pmc/articl es/PMC2944209/
  • 13. A transzkripciós faktorok egyidejűleg ugyanazon promoteren működnek ...
  • 14. A kromatin immunprecipitáció egy választott módszer a fehérjékkel kölcsönhatásban lévÅ‘ összes szekvencia megtalálására. Az összes ChIP- seq kísérletbÅ‘l származó adatok ugyanabban az adatbázisban (ChEA) táplálhatók ...https://galaxyproject.org/tutorials/chip/
  • 15. Expression2Kinases –X2K A szoftver, amely egyesíti a különbözÅ‘ adatbázisokat és eszközöket. INPUT: a különbözÅ‘képpen expresszált gének listája OUTPUT: protein kinázok, transzkripciós faktorok és proteinkomplexek, amelyek a bejuttatott gének feltételezett szabályozói. Ilyen szoftverek felhasználásával hipotetikus szabályozási útvonalakat építhetünk fel, és protein- interakciós hálózatokat hozhatunk létre. Az eredményeket kísérleti bizonyítékokkal is alá kell támasztani! The work-flow of X2K Chen et al. (2012) Bioinformatics 28:105
  • 16. Amit igazán akarunk az, hogy a listát hálózattá alakítsuk át - gyakran használják a sejtösszetevÅ‘k közötti kölcsönhatások kimutatására Euler, 1700s, Seven Bridges of Konigsberg Csomópont molekula Él interakció
  • 17. A rendszerbiológiához kapcsolódó hálózatok típusai 1. Sejt jelátviteli hálózatok - rák jelátviteli hálózat doi:10.1038/psp.2013.38 2. Protein-protein interakciós hálózatok - Dystrophin fehérje-fehérje keresztezÅ‘dések http://parendogen677s10.weebly.com/protein-protein-interactions.html 3. Génszabályozó hálózatok - A Drosophila szem fejlÅ‘dése - http://dev.biologists.org/content/140/1/82
  • 18. Genes2Networks Lists2Networks Kombinálja a kísérleti adatokat (mRNS expressziós mikroarray, genom-wide ChI-X, RNAi screen, proteomika és foszfoproteomika) minden ismert kölcsönhatás (elÅ‘zetes biológiai tudás) http://www.lists2networks.org
  • 20. További szoftverek léteznek a hálózatok vizualizálásához és elemzéséhez: Pajek (Vladimir Batagelj & Andrej Mrvar, Ljubljana, Slovenia) http://vlado.fmf.uni- lj.si/pub/networks/doc/gd.01/Pajek2.png http://vlado.fmf.uni-lj.si/pub/networks/doc/pajek.pdf Cytoscape (Trey Ideker, Shannon et al.,2003.)) http://www.cytoscape.org/ SNAVI (Ma’ayan et al. 2009) yEd….. Az útvonalak, alhálózatok, klaszterek, a hálózati sajátosságok azonosítása ...
  • 21. A molekuláris adatokat tovább lehetne integrálni a strukturális adatokkal a 3D modellek (makromolekuláris komplexek, virtuális sejtek) előállítása érdekében. Patwardhan és mtsai. 2017, DOI: 10,7554 / eLife.25835 (plazmodiummal fertÅ‘zött eritrociták)
  • 22. 1. A statisztikai elemzés kritikus fontosságú a nagy adathalmazokról szerzett tudásbÅ‘vítés során. A statisztikai analízis a vizsgálat szempontjából releváns gének / fehérjék / RNS-ek listáját állítja elÅ‘. 2. A gének listáját a bioinformatikai eszközökbe lehet bevinni, és az elÅ‘zetes ismeretekkel kombinálva új elméleti utakat, alhálózatokat, szabályozási mechanizmust találhatunk ... 3. A kísérleti nagy adathalmazok és a korábbi ismeretek (több adatbázis) integrálása lehetÅ‘vé teszi a fiziológiás funkciók, patofiziológia vagy farmakokinetika sokrétű megértését. 4. A számítással előállított jóslatokat kísérletileg bizonyítani kell.