Seminario di Cultura Digitale - mercoledì 17 maggio 2017
Aula Seminari EST - Dip. di Informatica - ore 14:15
Vincenzo Palleschi (Istituto di Chimica dei Composti Organometallici – CNR)
Lo studio del genoma umano: un nuovo strumento per la Storia e l’Archeologia
La scoperta del DNA risale ai primi anni ’50 del secolo scorso, ma solamente da pochi anni, con il completamento del Progetto Genoma Umano, si è finalmente trovata la chiave per la sua completa decrittazione. L’analisi delle informazioni contenute nel DNA è complessa, a causa dall’enorme quantità di dati che sono codificati in questa molecola. Complessi algoritmi informatici hanno comunque consentito di estrarre importanti informazioni dallo studio del genoma umano. Analizzando le mutazioni casuali del DNA, è possibile ricostruire con precisione la storia dell’evoluzione dell’umanità negli ultimi 150.000 anni e delle migrazioni che hanno portato l’Uomo a popolare tutta la Terra. Il DNA dell’Homo sapiens contemporaneo mantiene anche traccia dell’incontro con altre specie di Homo prodotte da linee evolutive parallele, e dei complessi rapporti che si sono con loro instaurati. Nel corso del seminario discuteremo dei principali strumenti analitici ed informatici per l’analisi del DNA, e ne commenteremo l’importanza per gli studi Storici e Archeologici.
Nuovi strumenti e strategie di analisi della ricerca genetica.
Speaker
Andrea Angius (CNR)
Feb 16 2011 - Collana di seminari per la valorizzazione dei risultati della ricerca al CRS4
Abstract
Vengono illustrati gli strumenti per l’identificazione, l’isolamento e la caratterizzazione delle varianti genetiche, dei geni e pathway metabolici, focalizzando l’attenzione su quelle patologie che presentano una forte componente genetica e un’elevata incidenza nella popolazione sarda.
1. The document compares genetic and linguistic diversity in Europe and finds some correlations between the two.
2. Structural features of languages may provide a better basis for comparison than vocabulary. Principal component analysis of genetic and linguistic data show some similarities in clustering.
3. Recent population mixing can account for some inconsistencies between the genetic and linguistic patterns. Overall, geography, genetics, and language are interrelated but influenced by separate evolutionary processes over long time periods.
1. The document discusses three main questions regarding human evolutionary genetics: the debate between hybridization models vs. the Southern dispersal route out of Africa, the coevolution of cultural and biological diversity, and challenges to the persistence of racial paradigms given genomic data.
2. Regarding the first question, the author notes several problems with hybridization hypotheses and presents evidence supporting an earlier dispersal of modern humans out of Africa via a Southern route, avoiding contact with Neanderthals.
3. For the second question, the author reviews evidence that increases in brain size did not necessarily correlate with genes associated with cognitive functions, and that cultural and linguistic changes likely evolved in parallel with biological changes.
4.
2. Programma del corso
1. Diversità genetica
2. Equilibrio di Hardy-Weinberg
3. Inbreeding
4. Linkage disequilibrium
5. Mutazione
6. Deriva genetica
7. Flusso genico e varianze genetiche
8. Selezione
9. Mantenimento dei polimorfismi e teoria neutrale
10. Introduzione alla teoria coalescente
11. Struttura e storia della popolazione umana
+ Lettura critica di articoli
3. La genetica studia la trasmissione ereditaria dal passato al
presente
forward
4. Ma quando si lavora su popolazioni si raccolgono dati sul
presente e si cerca di risalire al passato
? ?
backward
5. Cos’è un modello?
La teoria coalescente è un modello di evoluzione, vista come processo
genealogico.
Nella teoria coalescente la trasmissione ereditaria viene trattata
indipendentemente dal processo di mutazione
Definire il modello
Esplorarne le proprietÃ
Stimare parametri dai dati
Confrontare dati osservati e
attese del modello
6. Costruiamo (procedendo verso il passato) la
genealogia materna di un gruppo di individui
Due possibilità : o ogni individuo ha una madre diversa:
O due individui hanno la stessa madre:
Chiamo questo fenomeno coalescenza
7. Assunzioni del coalescente classico
(Kingman 1982)
1. NeutralitÃ
2. Siti infiniti
3. Se gli individui sono diploidi e le dimensioni della
popolazione sono N, il modello vale per 2N copie aploidi
e indipendenti del gene
4. Unione casuale entro la popolazione
5. Dimensioni della popolazione costanti (*)
6. Generazioni non sovrapposte
Parliamo di caratteri a trasmissione uniparentale
14. Non sempre l’albero ricostruito sulla base
delle mutazioni è molto informativo
2 3 1 4 5
CAATGCGGTG CAGTG TAATA TAACA
Possiamo capire qualcosa di più?
15. Nel risalire dal presente al passato incontriamo una
successione di eventi di coalescenza. Conseguenze:
1. In un campione di r individui alla generazione 0, il numero di
antenati 1, 2,…n generazioni fa (ξ1, ξ2, ..ξn) decresce fino ad
arrivare a 1:
r = ξ0 ξ1 ξ2 , ..ξn
Ogni genealogia viene ricondotta necessariamente a un
singolo antenato comune (MRCA). Non è possibile
discriminare fra monofilia e polifilia
16. Nel risalire dal presente al passato incontriamo una successione
di eventi di coalescenza. Conseguenze:
2. Se la popolazione è stazionaria (N costante), N donne hanno
una madre fra le N donne della generazione precedente.
La probabilità di coalescenza è vicina a 1/N
N1=8
N0=8?
17. Nel risalire dal presente al passato incontriamo una successione
di eventi di coalescenza. Conseguenze:
3. La probabilità P(n) che n alleli abbiano n antenati distinti alla
generazione precedente diminuisce con le dimensioni del
campione (più grande il campione, più grande la P di
almeno un evento di coalescenza)
campione P(ant.com) P(n)
2 1/N 1-(1/N)
3 2/N 1-(2/N)
n n /N
2
1- n /N
2
18. Dimensioni effettive
A A A A
Y X X X
mt mt
A A A A
Y X X X
mt mt
4. La dimensione
effettiva della
popolazione è
proporzionale a:
NC = 2
NeA = 4
NeX = 3
NeY = 1
Ne mt = 1
19. Nel risalire dal presente al passato incontriamo una
successione di eventi di coalescenza. Conseguenze:
5. I tempi medi di coalescenza aumentano procedendo verso il
passato
20. Nel risalire dal presente al passato incontriamo una
successione di eventi di coalescenza. Conseguenze:
6. Il tempo atteso fra due eventi di coalescenza è distribuito
esponenzialmente. E(T)=4N: Wright-Fisher
Tempo atteso per passare da k a (k-1) antenati:
Tk = 4N/[k(k-1)], o 2N per geni a trasm. uniparentale
21. Come si può arricchire il coalescente classico?
1. Selection
2. Recurrent and back mutation
3. Recombination
4. *Non-random mating: eg geographic subdivision with
specified migration between subpopulations
5. Population size fluctuation, including bottlenecks and
expansions
6. Non-’Poisson’ distributions of offspring numbers
7. Unequal generation intervals between lineages
22. Utilizzo del coalescente: simulazione di
processi genetici complicati
• Per capire la demografia di popolazioni passate (colli di
bottiglia, espansioni...)
• Per stimare il momento più probabile in cui sono
avvenute mutazioni, migrazioni, cambiamenti delle
pressioni selettive...
• Per valutare se i dati disponibili sono sufficienti a
discriminare fra diverse ipotesi
23. ABC (Approximate Bayesian Computations)
1. Alternative models are defined
2. For each model, millions of genealogies are generated by coalescent simulations,
sampling parameters from broad prior distributions
3. Summary statistics are estimated from observed and simulated data
4. A subset of simulations is retained, i.e. those showing the closest correspondence
between observed and simulated statistics
5. MODEL CHOICE: The posterior probability of each model is evaluated by counting
its occurrences among the best simulations
6. PARAMETER ESTIMATION: The modes are calculated of the parameter values
producing the best simulations under the chosen model, and credible intervals
about the modes are estimated
7. VALIDATION OF THE RESULTS: by further simulations in which pseudodata are
generated according to the models, and the power of the method to (a) tell models
apart and (b) identify the right model, is tested
24. ABC (Approximate Bayesian Computations)
1. Alternative models are defined
Mod 3
E M
C
27
26
a1 a2
Mod 2
E
M
27
26
a1 a2
Mod 1Mod 1
C
E
M
27
26
C
25. ABC (Approximate Bayesian Computations)
2. For each model, millions of genealogies are generated, sampling
parameters from broad prior distributions
10 000 – 50 000Ne Medieval Tuscans
4000 – 21 000Ne Etruscans
100 – 2000Ne at split
10 000 – 100 000Ne Generation 27
100 – 10 000Ne Generation 26
101 – 1500T estimated (bottleneck)
0.0003 – 0.0075μ
50 000 – 500 000Ne Modern Tuscans
PriorsParameters
26. ABC (Approximate Bayesian Computations)
3. A subset of simulations is retained, i.e. those with the shortest
distances between observed and simulated statistics
Observed statistics
27. ABC (Approximate Bayesian Computations)
4. MODEL CHOICE: The posterior probability of each model is
estimated from the frequency among the best simulations of the
simulations generated under that model
P=0.20
E M
C
27
26
a1 a2
P=0.10
E
M
27
26
a1 a2
Mod 1P=0.70
C
E
M
27
26
C
Observed statistics
28. ABC (Approximate Bayesian Computations)
5. PARAMETER ESTIMATION: the mode and the highest
probability density interval of the parameters are estimated
from the best simulations under the best model
0
100
40
27
26
Ne generation 40
Ne generation 100
Ne Generation 27
Ne Generation 26
T bottleneck
μ
Ne generation 0
Observed statistics
33. Gene trees, population trees
Gene trees are unknown, but we can reconstruct
some of their features assuming mutations occurred at a
constant rate (=no selection)
34. T2=2N
T5=N/5
4N
For nuclear genes, Exp time from k to (k-1) ancestors:
Tk = 4N/[k(k-1)] generations (large std. errors)
Population-genetics theory describes
the expected features of gene trees in
terms of population parameters
35. present
past
If two populations are isolated, the final
coalescence is 2N generations before the split
Origin of the B population
A B
T2=2N
T: gene
divergence
: population
divergence
Exp (T) = 4N
Exp(T2) = 2N
Exp = T/2
36. present
past
If there is initial polymorphism, the final coalescence
may be much more than 2N generations before the split
Origin of the B population
A B
T>>
T2=2N
37. : population
divergence
E(T- ) = 2 Ne
generationsT: gene
divergence
past
present
Gene divergence predates population divergence:
T is equal to only if 2 Ne =0
38. T
2Ne very
small
present
past
Only if there is a population bottleneck or a
founder effect does approximate T
Phylogeographic
analyses require the
assumption of strong
founder effects
39. Is it safe to assume that most human
populations originated from a founder
effect?
Evidence for rapid expansion (110-40 Kyrs ago) in farming
populations
Evidence for shrinking in hunting-gathering populations,
possible caused by competition with early farmers
(Excoffier & Schneider 1999)
Necessary to test for founder effects causing reduced
genetic diversity at several loci in a population
40. Ages of molecules are not ages
of populations
Initial polymorphism
results in overestimation
of the population’s age
Population’s age
Coalescence time
From Krings et al. (1997)
41. Any conclusions?
• Robust inferences on past population
processes are complicated
• No shortcuts: allele genealogies are not
population genealogies
• Archaeologists need geneticists to tell
demographic from cultural processes
• Geneticists need archeologists to identify
good hypotheses to test
42. Sintesi 1
• Il coalescente fornisce un modello di
evoluzione basato sull’indipendenza fra
processo genealogico e processo
mutazionale
• Tramite il coalescente si possono stimare
parametri sulla base di assunzioni esplicite
e simulare geenalogie di geni
43. Sintesi 2
Vantaggi del coalescente:
• Rende esplicite le assunzioni;
• fornisce misure di incertezza;
• non tratta (a differenza degli approcci
filogeografici) i polimorfismi come
mutazioni fissate.