Les bases de données biologiques sont des bibliothèques répertoriant des informations sur les sciences de la vie collectées grâce à des expériences scientifiques, à la littérature publiée, aux technologies expérimentales à haut débit, et aux analyses informatiques. Elles contiennent des informations venant de divers champs de recherche tels que la génomique, la protéomique, la métabolomique, la phylogénétique et les puces à ADN. Parmi le contenu des bases de données, on trouve des informations à propos de la fonction, de la structure, de la localisation (cellulaire et chromosomique) des gènes et les effets cliniques de leurs mutations, ainsi que leurs similarités de séquence et de structure.
Ces bases de données sont des outils importants pour les scientifiques car elles leur permettent de comprendre et expliquer de nombreux phénomènes biologiques allant de la structure des biomolécules et leurs interactions à l'ensemble du métabolisme des organismes, et même l'évolution des espèces. Cette connaissance facilite la prise en charge des pathologies, permet la création de nouveaux médicaments et permet la découverte de relations inter-espèces au cours de l'histoire de la vie.
La connaissance en biologie fait l'objet de toutes sortes de bases de données spécialisées ou générales. De ce fait, il est parfois difficile de s'assurer de la consistance des informations. La bioinformatique intégrative a pour objectif de résoudre ce problème en proposant un accès unifié. La notion de numéro d'accession en bioinformatique permet de lier entre eux les contenus des différentes bases de données.
Les concepts de base de données relationnelle (venant de l'informatique) et de recherche d'information (sur les bibliothèques électroniques) sont importantes pour la compréhension des bases de données biologiques. Leur conception, leur développement et leur maintenance à long terme est un secteur clé de la bioinformatique. Elles sont souvent décrites comme des données semi-structurées, et peuvent se présenter sous la forme de tableaux, de structures XML, etc.
La liste de bases de données du NAR
Le journal Nucleic Acids Research (NAR) publie tous les ans une édition spéciale nommée The Database Issue of NAR[1], qui est disponible librement. Elle catégorise une grande partie des bases de données en lignes accessibles au public en rapport avec la biologie et la bioinformatique. Cette édition est accompagnée de The Online Molecular Biology Database Collection, une liste de 1 380 bases de données. Il existe d'autres collections de bases de données, telles que MetaBase ou encore Bioinformatics Links Collection.
Accès
La plupart des bases de données biologiques sont accessibles sur des sites web sur lesquels les utilisateurs peuvent parcourir les informations. En général, il est également possible de télécharger les données sous divers formats : texte, données de séquençage, structures protéiques ou liens. Par exemple :
- Des informations sous forme de textes peuvent être fournies par PubMed ou OMIM,
- Des données de séquençage sont disponibles sur GenBank (ADN) et UniProt (protéines),
- Des données d'Expression génétique sur Bgee,
- Des données d'Orthologie sur OMA,
- Des structures spatiales protéiques sont disponibles sur la Protein Data Bank, la SCOP et la CATH.
Bases de données spécifiques d'espèces
Pour certaines espèces, en particulier celles qui sont souvent employées pour la recherche, il existe des bases de données spécialisées. Colibase[2] est par exemple consacrée à E. coli. On trouve également FlyBase pour la drosophile, WormBase pour les nématodes C. elegans et C. briggsae, EuPathDB pour les pathogènes eucaryotes.
Notes et références
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Biological database » (voir la liste des auteurs).
- (en) « The Database Issue of NAR », sur www3.oup.co.uk
- (en) « coliBASE - a genome resource for the E. coli research community », sur xbase.warwick.ac.uk (consulté le )