How bioinformatics use data to study DNA and life cycles. Presented at first Data Beers Tuscany by Monica Bianchini.
1 of 12
Download to read offline
More Related Content
Interpreting DNA using artificial intelligence - DataBeers Tuscany
1. Interpretare il codice della vita
con lIntelligenza Artificiale
Monica Bianchini
Universit degli Studi di Siena
Dipartimento di Ingegneria dellInformazione e Scienze Matematiche
2. I motori della vita
Le proteine sono macromolecole costituite da
venti diversi tipi di amminoacidi, legati in
successione mediante legami peptidici
3. Folding proteico
la struttura nativa di una proteina
che ne determina la funzione
In condizioni fisiologiche, le proteine, sintetizzate come
polimeri lineari, collassano e si modellano in complesse
strutture tridimensionali, dette strutture native
Il meccanismo di avvolgimento della catena polipep-
tidica, il folding, rappresenta il passaggio conclusivo del
trasferimento dellinformazione genetica dal DNA al suo
prodotto finale, il proteoma
4. Folding proteico
Il numero di folding distinti (700), assunti dalle
proteine osservate finora, sono il risultato della com-
binazione di un piccolo numero di semplici motivi
strutturali locali
¥eliche
foglietti
5. Predizione delle strutture proteiche
Perch辿 studiare la struttura 3D di una proteina?
Il confronto tra strutture proteiche
mette in luce relazioni evolutive difficilmente
rilevabili tramite confronto fra sequenze
permette la predizione della funzione di nuove
proteine sulla base della struttura di proteine note
Le proteine sono molecole flessibili: conoscere la
struttura 3D, e poterne descrivere levoluzione
superficiale, apre la strada alla progettazione di
nuovi farmaci
6. Cosa abbiamo a disposizione?
Banche dati biologiche (es.: PDB), perennemente
aggiornate ed in continua espansione
necessit di operare in tempo reale
Allinterno delle biobanche, dati annotati, per cui
la soluzione del problema 竪 nota
Gli strumenti dellIntelligenza Artificiale, in parti-
colare le Reti Neurali Artificiali
Sono in grado di apprendere da esempi, inferendo
regole dallosservazione e mimando il processo
cognitivo biologico
Predizione delle strutture proteiche
7. Nelle reti neurali, lapprendimento si realizza tramite
laggiustamento dei pesi sinaptici, effettuato su un
sottoinsieme dei dati
La rete svilupper memoria e capacit di estrapola-
zione cos狸 da rispondere correttamente a nuovi
stimoli, purch辿 congruenti con quanto ha appreso
Le Reti Neurali Artificiali
8. Predizione della struttura secondaria
Classificazione delle ¥eliche
Contesto C
Residuo R
Finestra W
O Onon_
Rete Neurale
I migliori metodi numerici di predizione delle strut-
tura secondaria utilizzano reti neurali
9. Predizione della struttura secondaria
Classificazione delle ¥eliche
Set dalla banca dati
Mapping noto
Conoscenza
codificata
nei pesi
Nuova sequenza
Mapping di
predizione
Addestramento Predizione
10. Quando residui di cisteina, lontani nella
struttura primaria della proteina, si
trovano vicini nello spazio 3D, possono
formare legami disolfuro covalenti
I ponti disolfuro producono un effetto
stabilizzante significativo sulla struttura
ripiegata di una proteina
Verso la predizione della struttura 3D
I ponti disolfuro
11. Predizione dei ponti disolfuro
S
SC CC
C
1 MVKGPGLYTDIGKKARDLLYKDYHS--DKKFTISTYSCTGVAITSSGTKKGEL--FLGDV
2 SAKGPGLYTDIGKKARDLLYRDYQT--DQKFSITTYSCTGVAITSSGTKKGDL--FLADV
3 MVKGPGLYSDIGKRARDLLYRDYQS--DHKFTLTTYTCNGVAITSTGTKKGEL--FLADV
4 MVKGPGLYSDIGKKARDLLYRDYVS--DHKFTVTTYSCTGVAITASGLKKGEL--FLADV
5 MVKGPGLYTEIGKKARDLLYRDYQG--DQKFSVTTYSCTGVAITTTGTNKGSL--FLGDV
6 MVVAVGLYTDIGKKTRDLLYKDYNT--HQKFCLTTSSCNGVAITAAGTRKNES--IFGEL
7 -MGGPGLYSGIGKKAKDLLYRDYQT--DHKFTLTTYTCNGPAITATSTKKADL--TVGEI
8 AVVRPYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSLEI
9 --AVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVTGSL
10 -MAVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVNGSL
11 --AVPPSYADLGKSARDIFNKGYGFG-LVKLDVKTKSCTGVEFTTSGTSNTDSGKVNGSL
12 --MAPPSYSDLGKQARDIFSKGYNFG-LWKLDLKTKTCSGIEFNTAGHSNQESGKVFGSL
13 --MAVPAFSDIAKSANDLLNKDFYHLAAGTIEVKSNTCNNVAFKVTGKSTHDK-VTSGAL
Bonding Non bonding
Verso la predizione della struttura 3D
I ponti disolfuro
12. Concludendo
La struttura secondaria di una proteina pu嘆 essere
predetta con accuratezza significativa (75%) usando le
tecniche dellIntelligenza Artificiale e, in particolare, le
reti neurali artificiali
La struttura terziaria 竪 molto pi湛 difficile da predire, ma
si pu嘆 ricostruire a partire dalla predizione dei contatti
fra amminoacidi lontani nella sequenza proteica
Conoscere la truttura 3D delle proteine significa cono-
scerne la funzione, cio竪 determinare quali informazioni
sono biologicamente significative per la crescita, la
riproduzione, levoluzione delle specie viventi