La bioinformatique (ou bio-informatique), est un champ scientifique multidisciplinaire auquel collaborent notamment des biologistes, informaticiens, mathématiciens, physiciens, médecins, agronomes et bioinformaticiens, dans le but de résoudre un problème scientifique posé par la biologie. Plus généralement, la bio-informatique est l'application de l'informatique, des mathématiques et de la statistique à la science biologique. Le spécialiste qui travaille à mi-chemin entre ces sciences et l'informatique est appelé bioinformaticien.
Le terme bio-informatique peut également décrire, par abus de langage, toutes les applications informatiques résultant de ces recherches[Note 1].
L'utilisation du terme bio-informatique est documentée pour la première fois en 1970 dans une publication de Paulien Hogeweg et Ben Hesper (université d'Utrecht, Pays-Bas), en référence à l'étude des processus d'information dans les systèmes biotiques[1],[2].
Ce domaine s'étend de l'analyse du génome à la modélisation de l'évolution d'une population animale dans un environnement donné, en passant par la modélisation moléculaire, l'analyse d'image, l'assemblage de génome et la reconstruction d'arbres phylogénétiques (phylogénie)[3]. Cette discipline constitue la « biologie in silico », par analogie avec in vitro ou in vivo.
Définitions et champs d'application
La bioinformatique est constituée par l'ensemble des concepts et des techniques nécessaires à l'interprétation informatique de l'information biologique. Plusieurs champs d'application ou sous-disciplines se sont constitués :
- la bioinformatique des séquences, qui traite de l'analyse de données issues de l'information génétique contenue dans la séquence de l'ADN ou dans celle des protéines qu'il code. Cette branche s'intéresse en particulier à l'identification des ressemblances entre les séquences, à l'identification des gènes ou de régions biologiquement pertinentes dans l'ADN ou dans les protéines, en se basant sur l'enchaînement ou séquence de leurs composants élémentaires (nucléotides, acides aminés) ;
- la bioinformatique structurale, qui traite de la reconstruction, de la prédiction ou de l'analyse de la structure 3D ou du repliement des macromolécules biologiques (protéines, acides nucléiques), au moyen d'outils informatiques ;
- la bioinformatique des réseaux, qui s'intéresse aux interactions entre gènes, protéines, cellules, organismes, en essayant d'analyser et de modéliser les comportements collectifs d'ensembles de briques élémentaires du Vivant. Cette partie de la bioinformatique se nourrit en particulier des données issues de technologies d'analyse à haut débit comme la protéomique ou la transcriptomique pour analyser des flux génétiques ou métaboliques ;
- la bioinformatique statistique et la bioinformatique des populations.
Pour certains, la bioinformatique est une branche théorique de la biologie alors que pour d'autres, elle se situe clairement au carrefour des mathématiques, de l'informatique et de la biologie.
Il s'agit en fait d'analyser, modéliser ou prédire les informations issues de données biologiques expérimentales.
Dans un sens encore plus étendu, on peut aussi inclure sous le concept de bio-informatique le développement d'outils de traitement de l'information basés sur des systèmes biologiques comme l'utilisation des propriétés combinatoires du code génétique pour la conception d'ordinateurs à ADN permettant de résoudre des problèmes algorithmiques complexes.
Analyse de séquence
Depuis l'invention du séquençage de l'ADN par Frederick Sanger dans la deuxième moitié des années 1970, les progrès technologiques dans ce domaine ont été tels que le volume des séquences d'ADN disponibles a progressé de manière exponentielle, avec un temps de doublement de l'ordre de 15 à 18 mois, c'est-à-dire un peu plus rapidement que la puissance des processeurs des ordinateurs (Loi de Moore). Un nombre exponentiellement croissant de séquences de génomes ou d'ADN complémentaires sont disponibles, dont l'annotation (ou interprétation de leur fonction biologique) reste à effectuer.
La première difficulté consiste à organiser cette énorme masse d'information et de la rendre disponible à l'ensemble de la communauté des chercheurs. Cela a été rendu possible grâce à différentes bases de données, accessibles en lignes. À l'échelon mondial, trois grandes institutions sont chargées de l'archivage de ces données : le NCBI aux États-Unis, l'EBI en Europe et le DDBJ (en) au Japon. Ces institutions se coordonnent pour gérer les grandes bases de données de séquences nucléotidiques comme GenBank ou l'EMBL database, ainsi que les bases de données de séquences protéiques comme UniProt ou TrEMBL (cf. liens en fin d'article).
Il faut ensuite développer des outils d'analyse de séquences afin de pouvoir déterminer leurs propriétés :
- recherche de protéines à partir de la traduction de séquences nucléiques connues. Celle-ci passe par la détermination des cadres de lecture ouverts d'une séquence nucléique et de sa ou ses traduction(s) probables ;
- recherche de séquences dans une banque de données à partir d'une autre séquence ou d'un fragment de séquence. Les logiciels les plus fréquemment utilisés sont de la famille BLAST (blastn, blastp, blastx, tblastx et leur dérivés) ;
- alignement de séquences : pour trouver les ressemblances entre deux séquences et déterminer leurs éventuelles homologies. Les alignements sont à la base de la construction de parentés suivant des critères moléculaires, ou encore de la reconnaissance de motifs particuliers dans une protéine à partir de la séquence de celle-ci ;
- recherche de motifs ou structures consensus pour caractériser les séquences.
La bio-informatique intervient aussi dans le séquençage, avec par exemple l'utilisation de puces à ADN ou biopuce. Le principe d'une telle puce repose sur la particularité de reformer spontanément la double hélice de l’acide désoxyribonucléique face au brin complémentaire. Les quatre molécules de base de l'ADN ont en effet la particularité de s'unir deux à deux. Si un patient est porteur d'une maladie, les brins extraits de l'ADN d'un patient, vont hybrider avec les brins d'ADN synthétiques représentatifs de la maladie[4].
Modélisation moléculaire
Les macromolécules biologiques sont en général de dimensions trop petites pour être accessibles à des moyens d'observation directs tel que la microscopie. La biologie structurale est la discipline qui a pour objet de reconstruire des modèles moléculaires, par l'analyse de données indirectes ou composites. L'objectif est d'obtenir une reconstruction tridimensionnelle présentant la meilleure adéquation avec les résultats expérimentaux. Ces données sont issues principalement d'analyses cristallographiques (étude des figures de diffraction des rayons X par un cristal), de résonance magnétique nucléaire, de cryomicroscopie électronique ou de techniques de diffusion aux petits angles (diffusion des rayons X ou diffusion des neutrons). Les données issues de ces expériences constituent des données (ou contraintes) expérimentales qui sont utilisées pour calculer un modèle de la structure 3D.
Le modèle moléculaire obtenu peut être est un ensemble de coordonnées cartésiennes des atomes composant la molécule, on parle alors de modèle atomique, ou une « enveloppe », c'est-à-dire une surface 3D décrivant la forme de la molécule, à plus basse résolution.
L'informatique intervient dans toutes les étapes conduisant de l'expérimentation au modèle, puis dans l'analyse du modèle par la visualisation moléculaire (voir les protéines en 3D).
Un autre volet de la modélisation moléculaire concerne la prédiction de la structure 3D d'une protéine à partir de sa structure primaire (l'enchaînement des acides aminés qui la composent), en prenant en compte les différentes propriétés physico-chimiques des acides aminés. Cela a un grand intérêt car la fonction, l'activité d'une protéine dépendent de sa forme. De même, la modélisation des structures 3D d'acides nucléiques (à partir de leur séquence nucléotidique) revêt la même importance que pour les protéines, en particulier pour les structures d'ARN.
La connaissance de la structure tridimensionnelle permet d'étudier les sites actifs d'une enzyme, mettre au point informatiquement une série d'inhibiteurs potentiels pour cette enzyme, et ne synthétiser et ne tester que ceux qui semblent convenir. Cela permet de réduire les coûts en temps et en argent de ces recherches.
De même la connaissance de cette structure permet de faciliter l'alignement de séquences protéiques.
La visualisation de la structure tridimensionnelle d'acides nucléiques (ARN et ADN) fait également partie de la palette des outils bio-informatiques très utilisés.
Construction d'arbres phylogénétiques
On appelle gènes homologues des gènes descendant d'un même gène ancestral. De façon plus spécifique, on dit de ces gènes qu'ils sont orthologues s'ils se retrouvent dans des espèces différentes (spéciation sans duplication), ou qu'ils sont paralogues s'ils se retrouvent chez la même espèce (duplication à l'intérieur du génome).
Il est alors possible de quantifier la distance génétique entre deux espèces en comparant leurs gènes orthologues. Cette distance génétique est représentée par le nombre et le type de mutations qui séparent les deux gènes.
Appliquée à un nombre plus important d'êtres vivants, cette méthode permet d'établir une matrice des distances génétiques entre plusieurs espèces. Les arbres phylogénétiques rapprochent les espèces qui ont la plus grande proximité. Plusieurs algorithmes différents sont utilisés pour tracer des arbres à partir des matrices de distance. Ils reposent chacun sur des modèles de mécanismes évolutifs différents. Les deux méthodes les plus connues sont la méthode UPGMA et la méthode du Neighbour Joining mais il existe d'autres méthodes basées sur le maximum de vraisemblance et le bayésien naïf.
La construction d'arbres phylogénétiques est utilisée par les programmes d'alignements multiples de séquences afin d'éliminer une grande partie des alignements possibles et de limiter ainsi les temps de calcul : il permet ainsi de guider l'alignement total.
Modélisation de population
Ontologies et intégration de données
Les ontologies biologiques sont des graphes acycliques dirigés de vocabulaires contrôlés. Ils sont conçus pour capturer des concepts et des descriptions biologiques d'une manière qui peut être facilement catégorisée et analysée avec des ordinateurs. Une fois catégorisés de cette manière, il est possible de tirer une valeur ajoutée d'une analyse holistique et intégrée.
Le Consortium OBO était un effort pour standardiser certaines ontologies. L'une des plus répandues est le Gene Ontology qui décrit la fonction des gènes. Il existe également des ontologies qui décrivent les phénotypes.
Exemples de tâches et débouchés
Voici un exemple de tâches et débouchés envisageables :
- aide à la création de nouveaux médicaments (prédiction de structure, d'interactions) ;
- développement de logiciels pour l'analyse et prédiction de données biologiques (génomique, transcriptomique, protéomique, etc.), par exemple la prédiction de gènes ;
- développement de logiciels pour la biologie : (LIMS, interface web, etc.) ;
- recherche dans un laboratoire (entreprise publique, biotechs, pharmaceutique, etc.) ;
- modélisation d'écosystèmes ou de processus écosystémiques (du gène au réseau écologique) ;
- modélisation physiologique et simulation informatique d'organes ;
- informatique pure ;
- aide à la création d'organismes génétiquement modifiés (bactéries, plantes, etc.) ;
- aide à la création de tests et de systèmes de diagnostics destinés aux laboratoires d'analyses médicales, aux centres de transfusion sanguine et aux laboratoires de contrôle industriel ;
- enseignement ;
- adaptation de technologies informatiques au domaine de la biologie ;
- création, entretien et développement d'entrepôts de données ;
- tour guidé pour une introduction à la bio-informatique, conçu par SIB Institut Suisse de bio-informatique.
Notes et références
Notes
- Tout comme l'informatique peut être considérée, suivant les situations, comme une science ou comme une technologie.
Références
- (nl) B Hesper et P Hogeweg, « Bioinformatica: een werkconcept », Kameleon, vol. 1, no 6, , p. 28–29.
- (en) Attwood T.K., Gisel A., Eriksson N-E. and Bongcam-Rudloff E., « Concepts, Historical Milestones and the Central Place of Bioinformatics in Modern Biology: A European Perspective », Bioinformatics - Trends and Methodologies, InTech, (consulté le ).
- « Arbre phylogénétique », sur futura-sciences.com (consulté le )
- Jean-Baptiste Waldner, Nano-informatique et Intelligence Ambiante : Inventer l'Ordinateur du XXIe Siècle, Londres, Hermes Science (réimpr. 2007), 121 p. (ISBN 978-2-7462-1516-0 et 2-7462-1516-0)
Biographie additionnelle
- (en) Paul M. Selzer, Richard J. Marhöfer et Oliver Koch, Applied Bioinformatics : An Introduction, Springer International Publishing, , 2e éd., xvi+ 183 (ISBN 978-3-319-68301-0 et 978-3-319-68299-0, DOI 10.1007/978-3-319-68301-0).
Voir aussi
Articles connexes
Organismes
Liens externes
- Notices dans des dictionnaires ou encyclopédies généralistes :
- Ressource relative à la santé :
- «Recherche pharmaceutique : IA sur ordonnance», La Méthode scientifique, France Culture, 20 mai 2020
- Société Française de bio-informatique (SFBI ; société savante créée en 2005 par des chercheurs et enseignants-chercheurs en bio-informatique).
- Institut Suisse de bio-informatique (ISB ; institut créé en 1998 pour regrouper les chercheurs en bio-informatique en Suisse).
- Bioinfo-fr (Bioinfo-fr.net ; Blog communautaire scientifique conçu par des bio-informaticien(ne)s francophones).
- JeBiF (JeBiF ; association des jeunes bio-informaticiens de France créée en 2008).
- Sélection de sites web sur la bio-informatique dans le répertoire encyclopédique : Les Signets de la Bibliothèque nationale de France