| Développé par | William R. Pearson |
|---|---|
| DerniĂšre version | 36.3.5 () |
| DépÎt | github.com/wrpearson/fasta36 |
| Ăcrit en | C |
| SystĂšme d'exploitation | Type Unix, Linux, Microsoft Windows et macOS |
| Environnement | UNIX, Linux, Windows, Mac OS X |
| Type | Bioinformatique |
| Licence | Libre pour un usage académique |
| Site web | fasta.bioch.virginia.edu |
FASTA est à l'origine un programme d'alignement de séquences d'ADN et de protéine développé par William R. Pearson en 1988[1]. Au fil de son développement, il est devenu une suite de programmes, étendant ainsi ses possibilités en termes d'alignement. FASTA est le descendant du programme FASTP publié par David J. Lipman et William R. Pearson en 1985[2]. Un des héritages de ce programme est le format de fichier FASTA qui est devenu un format standard en bioinformatique.
Historique
[modifier | modifier le code]Ă l'origine, le programme FASTP Ă©tait conçu pour la recherche de similaritĂ©s dans les sĂ©quences protĂ©iques (protĂ©ine:protĂ©ine)[2]. L'amĂ©lioration de ce dernier donna naissance au programme FASTA qui ajouta la possibilitĂ© de faire ce mĂȘme type de recherche pour des sĂ©quences nuclĂ©iques (ADN:ADN) mais Ă©galement des recherches de similaritĂ©s entre sĂ©quences nuclĂ©iques et protĂ©iques (ADN_traduit:protĂ©ine)[1]. Par ailleurs la mĂ©thode de calcul du score de similaritĂ© fut aussi amĂ©liorĂ©e pour prendre en compte de multiples rĂ©gions[1].
En mĂȘme temps que la publication de FASTA, deux autres programmes furent publiĂ©s[1] : RDF2, programme testant statistiquement la pertinence des scores de similaritĂ© par une mĂ©thode de randomisation, et LFASTA, programme identifiant des similaritĂ©s de sĂ©quence localement et non Ă l'Ă©chelle de la sĂ©quence entiĂšre (on peut voir ici les prĂ©mices du programme BLAST) et permettant l'affichage de ces alignements.
FASTA devrait ĂȘtre prononcĂ© [fasteÉȘ] puisqu'il signifie "FAST-All", Ă©tant donnĂ© qu'il fonctionne avec l'alphabet nuclĂ©ique et protĂ©ique et est une extension des programmes d'alignement "FAST-P" (pour protĂ©ine) et "FAST-N" (pour nuclĂ©otide)[3]. Cependant la prononciation usuellement employĂ© est [fasta].
Utilisation
[modifier | modifier le code]Actuellement, FASTA est une suite de programmes permettant des alignements protéine:protéine, ADN:ADN, protéine:ADN_traduit (avec prise en charge des décalages de cadres de lecture) et pouvant utiliser des séquences ordonnées ou non-ordonnées[4]. Les versions récentes de cette suite incluent des algorithmes spéciaux de recherche par traduction qui traitent correctement les erreurs de décalage de cadres de lecture (ce qu'une recherche dans les six cadres de lecture ne traite pas aussi efficacement) lors d'une comparaison de séquences nucléique et protéique.
En plus des méthodes de recherche heuristique rapides, la suite FASTA fournit le programme SSEARCH qui est une implémentation de l'algorithme de Smith-Waterman.
L'un des objectifs de cette suite est le calcul de statistiques de similaritĂ©s prĂ©cises, de sorte que les biologistes puissent juger s'il s'agit d'un alignement obtenu par chance ou s'il peut ĂȘtre utilisĂ© pour infĂ©rer une homologie.
La suite FASTA peut ĂȘtre utilisĂ©e localement ou Ă partir de trois serveurs se situant :
- sur le site officiel
- sur le site de l'Institut Européen de Bioinformatique (EBI)
- sur le site de l'Encyclopédie de GÚnes et Génomes de Kyoto (KEGG)
Le format de fichier FASTA utilisé comme fichier d'entrée pour les programmes de cette suite est un format devenu un standard de facto par sa trÚs large utilisation dans le domaine bioinformatique[5], étant amplement utilisé par d'autres programmes de recherche de séquences au sein de bases de données (tel que BLAST) ou d'alignement de séquences (comme Clustal, T-Coffee, etc.).
Méthode de recherche
[modifier | modifier le code]Pour une séquence de nucléotides ou d'acides aminés donnée, FASTA recherche un ensemble de séquences correspondantes au sein d'une base de données par alignements locaux de séquences.
Le programme FASTA suit une méthode heuristique qui contribue à une exécution trÚs rapide des tùches. Il recherche pour cela des correspondances de groupes d'acides aminés ou de nucléotides consécutifs de longueur k (des k-uplets ou k-tuples en anglais). Il observe en premier lieu le patron des correspondances de ces motifs d'une longueur donnée, et retient les correspondances possibles avant d'exécuter une recherche plus chronophage par l'utilisation d'un algorithme de type Smith-Waterman.
Le taille du motif, donnĂ©e par le paramĂštre ktup, contrĂŽle la sensibilitĂ© et la rapiditĂ© du programme. AccroĂźtre la valeur du ktup diminue le nombre total de rĂ©sultats pouvant ĂȘtre trouvĂ©s, mais accĂ©lĂšre la rapiditĂ© du programme. Ă partir des rĂ©sultats de motifs, le programme analyse les segments qui contiennent un groupe de rĂ©sultats proches. Il traite ensuite ces segments afin de trouver des correspondances possibles.
Bien qu'il y ait quelques différences entre FASTN et FASTP concernant le type de séquence utilisé, ils traitent tous deux les données en quatre étapes et calculent trois scores pour décrire et formater les résultats de similarités de séquences. Ces étapes sont :
- Identifier les régions de plus haute densité pour chaque comparaison. Utilisation d'un ktup égal à 1 ou 3.
- Pour cette Ă©tape, toutes ou une partie des identitĂ©s entre deux sĂ©quences sont identifiĂ©s Ă l'aide d'une table de correspondance. La valeur du ktup dĂ©termine combien d'identitĂ©s consĂ©cutives sont requises pour qu'une correspondance puisse ĂȘtre dĂ©clarĂ©e. Ainsi plus la valeur de ktup est faible, plus la recherche est sensible. Un ktup de 2 est frĂ©quemment utilisĂ© pour une sĂ©quence protĂ©ique et un ktup de 4 ou 6 pour une sĂ©quence nuclĂ©ique. Concernant les oligonuclĂ©otides courts, un ktup de 1 sera prĂ©fĂ©rĂ©. Le programme identifie ensuite toutes les rĂ©gions locales similaires entre deux sĂ©quences, reprĂ©sentĂ©es par des diagonales de longueur variable sur un dot plot, en comptant les correspondances de ktup et en pĂ©nalisant les non-correspondances. De cette façon, les rĂ©gions locales ayant une haute densitĂ© de correspondances sur la diagonale sont diffĂ©renciĂ©es des l'ensemble des rĂ©sultats. Pour les sĂ©quence protĂ©iques, un score est calculĂ© en utilisant une matrice de similaritĂ© entre acides aminĂ©s, comme BLOSUM50, pour chaque correspondance de ktup. Ceci permet aux groupes d'identitĂ©s avec un score Ă©levĂ© de similaritĂ© de contribuer de façon plus importante au score de la diagonale de la rĂ©gion locale que les identitĂ©s avec un faible score de similaritĂ©. Les sĂ©quences nuclĂ©iques utilisent quant Ă elles la matrice d'identitĂ©. Les dix meilleures rĂ©gions locales sont sĂ©lectionnĂ©s sur toute la diagonale et sauvegardĂ©es.
- Nouveau scan des rĂ©gions sauvegardĂ©es Ă l'aide de matrices de similaritĂ©. Ălimination des extrĂ©mitĂ©s de chaque rĂ©gion pour inclure uniquement celle qui contribuent aux scores les plus Ă©levĂ©s.
- Le nouveau scan des dix rĂ©gions sĂ©lectionnĂ©es est rĂ©alisĂ© Ă l'aide d'une matrice de scores afin d'effectuer une recalibration permettant d'analyser des identitĂ©s plus petite que la valeur du ktup. De plus, lors de la recalibration, les substitutions conservatives qui peuvent contribuer au score de similaritĂ© sont prises en compte. Bien que la matrice utilisĂ©e pour les sĂ©quences protĂ©iques soit une matrice BLOSUM50, les matrices de scores basĂ©es sur le nombre minimum de changement de base requis pour une substitution spĂ©cifique, pour une identitĂ© unique ou pour une mesure alternative de similaritĂ© telle que la matrice de substitution PAM, peuvent aussi ĂȘtre utilisĂ©es. Pour chacune des rĂ©gions de la diagonale rescannĂ©es de cette façon, une sous-rĂ©gion comprenant le score maximum est identifiĂ©. Les scores initialement trouvĂ©s Ă l'Ă©tape 1 sont utilisĂ©s pour ordonner les sĂ©quences de la base de donnĂ©es. Le score le plus Ă©levĂ© est dĂ©signĂ© comme score init1.
- Dans un alignement, si plusieurs rĂ©gions initiales avec un score plus Ă©levĂ© que la valeur seuil (valeur CUTOFF) sont identifiĂ©es, vĂ©rifie si les rĂ©gions initiales Ă©liminĂ©es peuvent ĂȘtre jointes pour former un alignement approximatif comprenant des gaps. Calcule un score de similaritĂ© correspondant Ă la somme des scores des rĂ©gions jointes avec une pĂ©nalitĂ© de 20 points pour chaque gap. Ce score initial (initn) est utilisĂ© pour ordonner les sĂ©quences de la base de donnĂ©es. Le meilleur score de la rĂ©gion initialement trouvĂ©e Ă l'Ă©tape 2 (init1) est rapportĂ©.
- Le programme calcule un alignement optimal des rĂ©gions initiales en combinant les rĂ©gions compatibles prĂ©sentant le meilleur score. Cet alignement optimal peut ĂȘtre rapidement calculĂ© en utilisant une algorithme de programmation dynamique. Le score initn rĂ©sultant est utilisĂ© pour ordonner les sĂ©quences de la base de donnĂ©es. Cette mĂ©thode d'assemblage augmente la sensibilitĂ© mais diminue la sĂ©lectivitĂ©. Le calcul d'une valeur seuil pour contrĂŽler cette Ă©tape a donc Ă©tĂ© implĂ©mentĂ© : cette valeur correspond approximativement Ă un Ă©cart-type au-dessus du score moyen attendu pour des sĂ©quences sans rapport au sein des sĂ©quences de la base de donnĂ©es. Une sĂ©quence d'entrĂ©e de 200 rĂ©sidus avec un ktup de 2 utilisera une valeur seuil de 28.
- Utilise l'algorithme de Smith-Waterman par bande pour calculer une score optimal pour l'alignement.
- Cette étape utilise un algorithme de Smith-Waterman par bande pour déterminer un score optimisé (opt) pour chaque alignement de la séquence d'entrée à la base de données. L'algorithme prend en compte une bande de 32 résidus centrée sur la région init1 de l'étape 2 pour calculer un alignement optimal. AprÚs la recherche de l'ensemble des séquences, le programme détermine graphiquement les scores initiaux de chaque séquence de la base de données sur un histogramme et teste le score opt afin de savoir s'il est statistiquement significatif. Pour les séquences protéiques, l'alignement final est produit en utilisant un alignement complet de Smith-Waterman. Pour les séquences nucléiques, un alignement par bande est fourni.
Références
[modifier | modifier le code]- (en) Pearson WR. & Lipman DJ., « Improved tools for biological sequence comparison. », Proceedings of the National Academy of Sciences of the United States of America, vol. 85, no 8,â , p. 2444-8 (ISSN 0027-8424, PMID 3162770, DOI 10.1073/pnas.85.8.2444)
- (en) Lipman DJ. & Pearson WR., « Rapid and sensitive protein similarity searches. », Science (New York, N.Y.), vol. 227, no 4693,â , p. 1435-41 (ISSN 0036-8075, PMID 2983426, DOI 10.1126/science.2983426)
- â (en) William R. Pearson, « Documentation de la version 2.0 de la suite de programmes FASTA », sur Center for Biological Sequence analysis (consultĂ© le )
- â (en) William R. Pearson, The FASTA program package, , 29 p. (lire en ligne)
- â (en) Cock PJ., Fields CJ., Goto N., Heuer ML. & Rice PM., « The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. », Nucleic Acids Research, vol. 38, no 6,â , p. 1767-71 (ISSN 1362-4962, PMID 20015970, DOI 10.1093/nar/gkp1137)
- (en) Cet article est partiellement ou en totalitĂ© issu de lâarticle de WikipĂ©dia en anglais intitulĂ© « FASTA » (voir la liste des auteurs).
Voir aussi
[modifier | modifier le code]Articles connexes
[modifier | modifier le code]- BLAST
- format FASTA
- Alignement de séquences
- Programmes d'alignement de séquences
- Liste de formats de fichier pour la biologie moléculaire
Liens externes
[modifier | modifier le code]- (en) Site officiel de FASTA
- (en) FASTA sur EBI - Page web de l'EBI permettant d'accéder à la suite FASTA
- (en) FASTA sur KEGG
