En génétique, la théorie du coalescent, appelée aussi théorie de la coalescence, est un modèle rétrospectif de génétique des populations. Son objectif est de suivre l'évolution de tous les allèles d'un gène donné de tous les individus d'une population, jusqu'à une seule copie ancestrale, appelée ancêtre commun le plus récent. Les relations d'hérédité entre les allèles sont représentées sous la forme d'un arbre similaire à un arbre phylogénétique. Cet arbre est aussi appelé coalescent, et la compréhension des propriétés statistiques du coalescent sous différentes hypothèses forme la base de la théorie du coalescent.
Le coalescent utilise des modèles de dérive génétique, en remontant le temps pour reconstruire la généalogie des ancêtres. Dans le cas le plus simple, la théorie du coalescent suppose qu'il n'y a ni recombinaison, ni sélection naturelle, ni flux de gènes, et que la population n'est pas structurée. Des modèles sont ensuite complétés pour prendre en compte une ou plusieurs des composantes de l'évolution biologique. La théorie mathématique du coalescent a été développée au début des années 1980 par John Kingman.
Théorie
Si l'on considère deux individus, on retrace leurs généalogies en remontant le temps jusqu'à trouver leur ancêtre commun le plus récent, instant où se produit ce qu'on nomme la coalescence.
Temps de coalescence
L'un des objectifs de la théorie du coalescent est de déterminer la durée écoulée depuis la vie de l'ancêtre commun le plus récent.
On utilise alors la théorie des probabilités. La probabilité que deux lignées coalescent lors de la génération immédiatement précédente est qu'ils aient le même parent. Dans une population diploïde dont la taille Ne est constante, il y a 2Ne copies de chaque locus. Ainsi, pour chaque locus d'une génération il y a dans la génération précédente 2Ne ascendances potentiel de lignée.
La probabilité que deux locus d'une génération coalescencent à la génération précédente est la somme de la probabilité de chaque coalescence possible dans cette précédente génération. Les deux ascendances de lignés sont indépendantes, ainsi la probabilité de chaque locus de la génération précédente d'être le coalescent est de (1/2Ne)2 Ainsi cette somme est égal a 2Ne (1/2Ne)2 = 1/2Ne
On voit donc que la probabilité de coalescence lorsqu'on remonte les générations, suit une loi géométrique : la probabilité que la coalescence arrive à la t-ième génération précédente (c'est-à-dire qu'il n'y ait pas eu de coalescence lors des t-1 premières générations, et qu'elle advienne à la dernière) est de
Lorsque Ne est suffisamment grand, une bonne approximation de la distribution est donnée par la loi exponentielle
L'espérance et l'écart-type d'une loi exponentielle sont toutes deux égales au paramètre, ici 2Ne. Par conséquent, le temps moyen de coalescence est de 2Ne, compté en nombre de générations avant le présent.
Variation sans sélection
La théorie de la coalescence est aussi utilisée pour modéliser la variation d'une séquence d'ADN sous l'influence de la seule dérive génétique. Cette quantité de variation, (parfois appelée hétérozygotie) est notée . Sa moyenne est calculée comme le ratio de la probabilité qu'une mutation arrive lors d'une génération donnée divisée par la somme des probabilités que l'un des deux événements (mutation ou coalescence) arrive à cette génération. Cette mutation pouvant atteindre l'une ou l'autre des deux lignées, sa probabilité est donc notée . Ainsi on obtient, en notant ,
Lorsque , la plupart des paires d'allèles ont au moins une différence dans la séquence de leurs nucléotides.
Représentation graphique
Les coalescents peuvent être représentés par des dendrogrammes qui montrent les relations des différentes branches de la population. Le point où deux branches se rencontrent indique une coalescence.
Histoire
La théorie de la coalescence est une extension naturelle de concepts classiques de génétique des populations d'évolution sans sélection, et est une approximation du modèle de Wright Fisher (créé par Sewall Wright et Ronald Fisher) pour des populations de grande taille. Elle a été élaborée indépendamment par plusieurs chercheurs au début des années 1980 [1],[2],[3],[4], mais la formulation définitive est attribuée à Kingman. Des contributions majeures ont été effectuées par Peter Donnelly[5], Robert Griffiths, Richard R Hudson[6] et Simon Tavaré. Parmi celles-ci figurent les modifications du modèle pour inclure la variation de la taille de la population[7], la recombinaison et la sélection[8],[9]. En 1999 Jim Pitman[10] et Serik Sagitov[11] ont introduit indépendamment les coalescents avec des collisions multiples de lignées ancestrales. Un peu plus tard la classification complète de processus coalescents échangeables avec fusions multiples a été élaborée par Martin Möhle, Serik Sagitov[12] et Jason Schweinsberg[13].
Logiciels
Il existe un grand nombre de logiciels, tant de simulation de jeux de données de processus de coalescence, que d'inférence de paramètres comme les tailles de population ou les taux de migrations. En voici une liste : logiciels en théorie de coalescence (en).
Notes et références
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Coalescent Theory » (voir la liste des auteurs).
- Kingman, J.F.C. (1982) On the Genealogy of Large Populations. Journal of Applied Probability 19A:27–43 JSTOR copy
- Hudson RR (1983a) Testing the constant-rate neutral allele model with protein sequence data. Evolution 37: 203–207 JSTOR copy
- Hudson RR (1983b) Properties of a neutral allele model with intragenic recombination. Theoretical Population Biology 23:183–201.
- Tajima, F. (1983) Evolutionary Relationship of DNA Sequences in finite populations. Genetics 105:437–460
- Donnelly, P., Tavaré, S. (1995) Coalescents and genealogical structure under neutrality. Annual Review of Genetics 29:401–421
- Hudson RR (1991) Gene genealogies and the coalescent process. Oxford Surveys in Evolutionary Biology 7: 1–44
- }Slatkin, M. (2001) Simulating genealogies of selected alleles in populations of variable size Genetic Research 145:519–534
- Kaplan, N.L., Darden, T., Hudson, R.R. (1988) The coalescent process in models with selection. Genetics 120:819–829
- Neuhauser, C., Krone, S.M. (1997) The genealogy of samples in models with selection Genetics 145 519–534
- Pitman, J. (1999) Coalescents with multiple collisions The Annals of Probability 27:1870–1902
- Sagitov, S. (1999) The general coalescent with asynchronous mergers of ancestral lines Journal of Applied Probability 36:1116–1125
- Möhle, M., Sagitov, S. (2001) A classification of coalescent processes for haploid exchangeable population models The Annals of Probability 29:1547–1562
- Schweinsberg, J. (2000) Coalescents with simultaneous multiple collisions Electronic Journal of Probability 5:1–50
Autre articles
- Arenas, M. and Posada, D. (2007) Recodon: Coalescent simulation of coding DNA sequences with recombination, migration and demography. BMC Bioinformatics 8: 458
- Arenas, M. and Posada, D. (2010) Coalescent simulation of intracodon recombination. Genetics 184(2): 429–437
- Browning, S.R. (2006) Multilocus association mapping using variable-length markov chains. American Journal of Human Genetics 78:903–913
- Degnan, JH and LA Salter. 2005. Gene tree distribtutions under the coalescent process. Evolution 59(1): 24-37. pdf from coaltree.net/
- Hellenthal, G., Stephens M. (2006) msHOT: modifying Hudson's ms simulator to incorporate crossover and gene conversion hotspots Bioinformatics AOP
- Hudson RR (2002) Generating samples under a Wright–Fisher neutral model. Bioinformatics 18:337–338
- Hein, J. , Schierup, M., Wiuf C. (2004) Gene Genealogies, Variation and Evolution: A Primer in Coalescent Theory Oxford University Press (ISBN 978-0198529965)
- Kingman, J.F.C. (2000) Origins of the coalescent 1974–1982. Genetics 156:1461–1463
- Liang L., Zöllner S., Abecasis G.R. (2007) GENOME: a rapid coalescent-based whole genome simulator. Bioinformatics 23: 1565–1567
- Mailund, T., Schierup, M.H., Pedersen, C.N.S., Mechlenborg, P.J.M., Madsen, J.N., Schauser, L. (2005) CoaSim: A Flexible Environment for Simulating Genetic Data under Coalescent Models BMC Bioinformatics 6:252
- Morris, A. P., Whittaker, J. C., Balding, D. J. (2002) Fine-scale mapping of disease loci via shattered coalescent modeling of genealogies American Journal of Human Genetics 70:686–707
- Harding, Rosalind, M. 1998. New phylogenies: an introductory look at the coalescent. pp. 15–22, in Harvey, P. H., Brown, A. J. L., Smith, J. M., Nee, S. New uses for new phylogenies. Oxford University Press (ISBN 0198549849)
- Rosenberg, N.A., Nordborg, M. (2002) Genealogical Trees, Coalescent Theory and the Analysis of Genetic Polymorphisms. Nature Reviews Genetics 3:380–390
- Zöllner S. and Pritchard J.K. (2005) Coalescent-Based Association Mapping and Fine Mapping of Complex Trait Loci Genetics 169:1071–1092
- Rousset F. and Leblois R. (2007) Likelihood and Approximate Likelihood Analyses of Genetic Structure in a Linear Habitat: Performance and Robustness to Model Mis-Specification Molecular Biology and Evolution 24:2730–2745
- Leblois R., Estoup A. and Rousset F. (2009) IBDSim: a computer program to simulate genotypic data under isolation by distance Molecular Ecology Resources 9:107-109
Bibliographie
- Hein, J; Schierup, M. H., and Wiuf, C. Gene Genealogies, Variation and Evolution – A Primer in Coalescent Theory. Oxford University Press, 2005. (ISBN 0-19-852996-1).
- Nordborg, M. (2001) Introduction to Coalescent Theory
- Chapter 7 in Balding, D., Bishop, M., Cannings, C., editors, Handbook of Statistical Genetics. Wiley (ISBN 978-0471860945)
- Wakeley J. (2006) An Introduction to Coalescent Theory Roberts & Co (ISBN 0-9747077-5-9)
- Rice SH. (2004). Evolutionary Theory: Mathematical and Conceptual Foundations. Sinauer Associates: Sunderland, MA. See esp. ch. 3 for detailed derivations.
- Berestycki N. "Recent progress in coalescent theory" 2009 ENSAIOS Matematicos vol.16
- Bertoin J. "Random Fragmentation and Coagulation Processes"., 2006. Cambridge Studies in Advanced Mathematics, 102. Cambridge University Press, Cambridge, 2006. (ISBN 978-0-521-86728-3);
- Pitman J. "Combinatorial stochastic processes" Springer (2003)