際際滷

際際滷Share a Scribd company logo
Interpretare il codice della vita
con lIntelligenza Artificiale
Monica Bianchini
Universit degli Studi di Siena
Dipartimento di Ingegneria dellInformazione e Scienze Matematiche
I motori della vita
Le proteine sono macromolecole costituite da
venti diversi tipi di amminoacidi, legati in
successione mediante legami peptidici
Folding proteico
 la struttura nativa di una proteina
che ne determina la funzione
In condizioni fisiologiche, le proteine, sintetizzate come
polimeri lineari, collassano e si modellano in complesse
strutture tridimensionali, dette strutture native
Il meccanismo di avvolgimento della catena polipep-
tidica, il folding, rappresenta il passaggio conclusivo del
trasferimento dellinformazione genetica dal DNA al suo
prodotto finale, il proteoma
Folding proteico
Il numero di folding distinti (700), assunti dalle
proteine osservate finora, sono il risultato della com-
binazione di un piccolo numero di semplici motivi
strutturali locali
¥eliche
foglietti
Predizione delle strutture proteiche
Perch辿 studiare la struttura 3D di una proteina?
Il confronto tra strutture proteiche
mette in luce relazioni evolutive difficilmente
rilevabili tramite confronto fra sequenze
permette la predizione della funzione di nuove
proteine sulla base della struttura di proteine note
Le proteine sono molecole flessibili: conoscere la
struttura 3D, e poterne descrivere levoluzione
superficiale, apre la strada alla progettazione di
nuovi farmaci
Cosa abbiamo a disposizione?
 Banche dati biologiche (es.: PDB), perennemente
aggiornate ed in continua espansione
 necessit di operare in tempo reale
 Allinterno delle biobanche, dati annotati, per cui
la soluzione del problema 竪 nota
 Gli strumenti dellIntelligenza Artificiale, in parti-
colare le Reti Neurali Artificiali
Sono in grado di apprendere da esempi, inferendo
regole dallosservazione e mimando il processo
cognitivo biologico
Predizione delle strutture proteiche
Nelle reti neurali, lapprendimento si realizza tramite
laggiustamento dei pesi sinaptici, effettuato su un
sottoinsieme dei dati
La rete svilupper memoria e capacit di estrapola-
zione cos狸 da rispondere correttamente a nuovi
stimoli, purch辿 congruenti con quanto ha appreso
Le Reti Neurali Artificiali
Predizione della struttura secondaria
Classificazione delle ¥eliche
Contesto C
Residuo R
Finestra W
O Onon_
Rete Neurale
I migliori metodi numerici di predizione delle strut-
tura secondaria utilizzano reti neurali
Predizione della struttura secondaria
Classificazione delle ¥eliche
Set dalla banca dati
Mapping noto
Conoscenza
codificata
nei pesi
Nuova sequenza
Mapping di
predizione
Addestramento Predizione
Quando residui di cisteina, lontani nella
struttura primaria della proteina, si
trovano vicini nello spazio 3D, possono
formare legami disolfuro covalenti
I ponti disolfuro producono un effetto
stabilizzante significativo sulla struttura
ripiegata di una proteina
Verso la predizione della struttura 3D
I ponti disolfuro
Predizione dei ponti disolfuro
S
SC CC
C
1 MVKGPGLYTDIGKKARDLLYKDYHS--DKKFTISTYSCTGVAITSSGTKKGEL--FLGDV
2 SAKGPGLYTDIGKKARDLLYRDYQT--DQKFSITTYSCTGVAITSSGTKKGDL--FLADV
3 MVKGPGLYSDIGKRARDLLYRDYQS--DHKFTLTTYTCNGVAITSTGTKKGEL--FLADV
4 MVKGPGLYSDIGKKARDLLYRDYVS--DHKFTVTTYSCTGVAITASGLKKGEL--FLADV
5 MVKGPGLYTEIGKKARDLLYRDYQG--DQKFSVTTYSCTGVAITTTGTNKGSL--FLGDV
6 MVVAVGLYTDIGKKTRDLLYKDYNT--HQKFCLTTSSCNGVAITAAGTRKNES--IFGEL
7 -MGGPGLYSGIGKKAKDLLYRDYQT--DHKFTLTTYTCNGPAITATSTKKADL--TVGEI
8 AVVRPYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSLEI
9 --AVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVTGSL
10 -MAVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVNGSL
11 --AVPPSYADLGKSARDIFNKGYGFG-LVKLDVKTKSCTGVEFTTSGTSNTDSGKVNGSL
12 --MAPPSYSDLGKQARDIFSKGYNFG-LWKLDLKTKTCSGIEFNTAGHSNQESGKVFGSL
13 --MAVPAFSDIAKSANDLLNKDFYHLAAGTIEVKSNTCNNVAFKVTGKSTHDK-VTSGAL
Bonding Non bonding
Verso la predizione della struttura 3D
I ponti disolfuro
Concludendo
La struttura secondaria di una proteina pu嘆 essere
predetta con accuratezza significativa (75%) usando le
tecniche dellIntelligenza Artificiale e, in particolare, le
reti neurali artificiali
La struttura terziaria 竪 molto pi湛 difficile da predire, ma
si pu嘆 ricostruire a partire dalla predizione dei contatti
fra amminoacidi lontani nella sequenza proteica
Conoscere la truttura 3D delle proteine significa cono-
scerne la funzione, cio竪 determinare quali informazioni
sono biologicamente significative per la crescita, la
riproduzione, levoluzione delle specie viventi

More Related Content

Interpreting DNA using artificial intelligence - DataBeers Tuscany

  • 1. Interpretare il codice della vita con lIntelligenza Artificiale Monica Bianchini Universit degli Studi di Siena Dipartimento di Ingegneria dellInformazione e Scienze Matematiche
  • 2. I motori della vita Le proteine sono macromolecole costituite da venti diversi tipi di amminoacidi, legati in successione mediante legami peptidici
  • 3. Folding proteico la struttura nativa di una proteina che ne determina la funzione In condizioni fisiologiche, le proteine, sintetizzate come polimeri lineari, collassano e si modellano in complesse strutture tridimensionali, dette strutture native Il meccanismo di avvolgimento della catena polipep- tidica, il folding, rappresenta il passaggio conclusivo del trasferimento dellinformazione genetica dal DNA al suo prodotto finale, il proteoma
  • 4. Folding proteico Il numero di folding distinti (700), assunti dalle proteine osservate finora, sono il risultato della com- binazione di un piccolo numero di semplici motivi strutturali locali ¥eliche foglietti
  • 5. Predizione delle strutture proteiche Perch辿 studiare la struttura 3D di una proteina? Il confronto tra strutture proteiche mette in luce relazioni evolutive difficilmente rilevabili tramite confronto fra sequenze permette la predizione della funzione di nuove proteine sulla base della struttura di proteine note Le proteine sono molecole flessibili: conoscere la struttura 3D, e poterne descrivere levoluzione superficiale, apre la strada alla progettazione di nuovi farmaci
  • 6. Cosa abbiamo a disposizione? Banche dati biologiche (es.: PDB), perennemente aggiornate ed in continua espansione necessit di operare in tempo reale Allinterno delle biobanche, dati annotati, per cui la soluzione del problema 竪 nota Gli strumenti dellIntelligenza Artificiale, in parti- colare le Reti Neurali Artificiali Sono in grado di apprendere da esempi, inferendo regole dallosservazione e mimando il processo cognitivo biologico Predizione delle strutture proteiche
  • 7. Nelle reti neurali, lapprendimento si realizza tramite laggiustamento dei pesi sinaptici, effettuato su un sottoinsieme dei dati La rete svilupper memoria e capacit di estrapola- zione cos狸 da rispondere correttamente a nuovi stimoli, purch辿 congruenti con quanto ha appreso Le Reti Neurali Artificiali
  • 8. Predizione della struttura secondaria Classificazione delle ¥eliche Contesto C Residuo R Finestra W O Onon_ Rete Neurale I migliori metodi numerici di predizione delle strut- tura secondaria utilizzano reti neurali
  • 9. Predizione della struttura secondaria Classificazione delle ¥eliche Set dalla banca dati Mapping noto Conoscenza codificata nei pesi Nuova sequenza Mapping di predizione Addestramento Predizione
  • 10. Quando residui di cisteina, lontani nella struttura primaria della proteina, si trovano vicini nello spazio 3D, possono formare legami disolfuro covalenti I ponti disolfuro producono un effetto stabilizzante significativo sulla struttura ripiegata di una proteina Verso la predizione della struttura 3D I ponti disolfuro
  • 11. Predizione dei ponti disolfuro S SC CC C 1 MVKGPGLYTDIGKKARDLLYKDYHS--DKKFTISTYSCTGVAITSSGTKKGEL--FLGDV 2 SAKGPGLYTDIGKKARDLLYRDYQT--DQKFSITTYSCTGVAITSSGTKKGDL--FLADV 3 MVKGPGLYSDIGKRARDLLYRDYQS--DHKFTLTTYTCNGVAITSTGTKKGEL--FLADV 4 MVKGPGLYSDIGKKARDLLYRDYVS--DHKFTVTTYSCTGVAITASGLKKGEL--FLADV 5 MVKGPGLYTEIGKKARDLLYRDYQG--DQKFSVTTYSCTGVAITTTGTNKGSL--FLGDV 6 MVVAVGLYTDIGKKTRDLLYKDYNT--HQKFCLTTSSCNGVAITAAGTRKNES--IFGEL 7 -MGGPGLYSGIGKKAKDLLYRDYQT--DHKFTLTTYTCNGPAITATSTKKADL--TVGEI 8 AVVRPYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSLEI 9 --AVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVTGSL 10 -MAVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVNGSL 11 --AVPPSYADLGKSARDIFNKGYGFG-LVKLDVKTKSCTGVEFTTSGTSNTDSGKVNGSL 12 --MAPPSYSDLGKQARDIFSKGYNFG-LWKLDLKTKTCSGIEFNTAGHSNQESGKVFGSL 13 --MAVPAFSDIAKSANDLLNKDFYHLAAGTIEVKSNTCNNVAFKVTGKSTHDK-VTSGAL Bonding Non bonding Verso la predizione della struttura 3D I ponti disolfuro
  • 12. Concludendo La struttura secondaria di una proteina pu嘆 essere predetta con accuratezza significativa (75%) usando le tecniche dellIntelligenza Artificiale e, in particolare, le reti neurali artificiali La struttura terziaria 竪 molto pi湛 difficile da predire, ma si pu嘆 ricostruire a partire dalla predizione dei contatti fra amminoacidi lontani nella sequenza proteica Conoscere la truttura 3D delle proteine significa cono- scerne la funzione, cio竪 determinare quali informazioni sono biologicamente significative per la crescita, la riproduzione, levoluzione delle specie viventi