Technopedia Center
PMB University Brochure
Faculty of Engineering and Computer Science
S1 Informatics S1 Information Systems S1 Information Technology S1 Computer Engineering S1 Electrical Engineering S1 Civil Engineering

faculty of Economics and Business
S1 Management S1 Accountancy

Faculty of Letters and Educational Sciences
S1 English literature S1 English language education S1 Mathematics education S1 Sports Education
  • Registerasi
  • Brosur UTI
  • Kip Scholarship Information
  • Performance
  1. Weltenzyklopädie
  2. FASTA (programme informatique) — Wikipédia
FASTA (programme informatique) — Wikipédia 👆 Click Here! Read More..
Un article de Wikipédia, l'encyclopédie libre.
Page d’aide sur l’homonymie

Pour les articles homonymes, voir FASTA.

FASTA

Informations
Développé par William R. Pearson
Dernière version 36.3.5 (mai 2011)
Dépôt github.com/wrpearson/fasta36Voir et modifier les données sur Wikidata
Écrit en CVoir et modifier les données sur Wikidata
Système d'exploitation Type Unix, Linux, Microsoft Windows et macOSVoir et modifier les données sur Wikidata
Environnement UNIX, Linux, Windows, Mac OS X
Type Bioinformatique
Licence Libre pour un usage académique
Site web fasta.bioch.virginia.edu

modifier - modifier le code - voir Wikidata (aide)

FASTA est à l'origine un programme d'alignement de séquences d'ADN et de protéine développé par William R. Pearson en 1988[1]. Au fil de son développement, il est devenu une suite de programmes, étendant ainsi ses possibilités en termes d'alignement. FASTA est le descendant du programme FASTP publié par David J. Lipman et William R. Pearson en 1985[2]. Un des héritages de ce programme est le format de fichier FASTA qui est devenu un format standard en bioinformatique.

Historique

[modifier | modifier le code]

À l'origine, le programme FASTP était conçu pour la recherche de similarités dans les séquences protéiques (protéine:protéine)[2]. L'amélioration de ce dernier donna naissance au programme FASTA qui ajouta la possibilité de faire ce même type de recherche pour des séquences nucléiques (ADN:ADN) mais également des recherches de similarités entre séquences nucléiques et protéiques (ADN_traduit:protéine)[1]. Par ailleurs la méthode de calcul du score de similarité fut aussi améliorée pour prendre en compte de multiples régions[1].

En même temps que la publication de FASTA, deux autres programmes furent publiés[1] : RDF2, programme testant statistiquement la pertinence des scores de similarité par une méthode de randomisation, et LFASTA, programme identifiant des similarités de séquence localement et non à l'échelle de la séquence entière (on peut voir ici les prémices du programme BLAST) et permettant l'affichage de ces alignements.

FASTA devrait être prononcé [fasteɪ] puisqu'il signifie "FAST-All", étant donné qu'il fonctionne avec l'alphabet nucléique et protéique et est une extension des programmes d'alignement "FAST-P" (pour protéine) et "FAST-N" (pour nucléotide)[3]. Cependant la prononciation usuellement employé est [fasta].

Utilisation

[modifier | modifier le code]

Actuellement, FASTA est une suite de programmes permettant des alignements protéine:protéine, ADN:ADN, protéine:ADN_traduit (avec prise en charge des décalages de cadres de lecture) et pouvant utiliser des séquences ordonnées ou non-ordonnées[4]. Les versions récentes de cette suite incluent des algorithmes spéciaux de recherche par traduction qui traitent correctement les erreurs de décalage de cadres de lecture (ce qu'une recherche dans les six cadres de lecture ne traite pas aussi efficacement) lors d'une comparaison de séquences nucléique et protéique.

En plus des méthodes de recherche heuristique rapides, la suite FASTA fournit le programme SSEARCH qui est une implémentation de l'algorithme de Smith-Waterman.

L'un des objectifs de cette suite est le calcul de statistiques de similarités précises, de sorte que les biologistes puissent juger s'il s'agit d'un alignement obtenu par chance ou s'il peut être utilisé pour inférer une homologie.

La suite FASTA peut être utilisée localement ou à partir de trois serveurs se situant :

  • sur le site officiel
  • sur le site de l'Institut Européen de Bioinformatique (EBI)
  • sur le site de l'Encyclopédie de Gènes et Génomes de Kyoto (KEGG)

Le format de fichier FASTA utilisé comme fichier d'entrée pour les programmes de cette suite est un format devenu un standard de facto par sa très large utilisation dans le domaine bioinformatique[5], étant amplement utilisé par d'autres programmes de recherche de séquences au sein de bases de données (tel que BLAST) ou d'alignement de séquences (comme Clustal, T-Coffee, etc.).

Méthode de recherche

[modifier | modifier le code]

Pour une séquence de nucléotides ou d'acides aminés donnée, FASTA recherche un ensemble de séquences correspondantes au sein d'une base de données par alignements locaux de séquences.

Le programme FASTA suit une méthode heuristique qui contribue à une exécution très rapide des tâches. Il recherche pour cela des correspondances de groupes d'acides aminés ou de nucléotides consécutifs de longueur k (des k-uplets ou k-tuples en anglais). Il observe en premier lieu le patron des correspondances de ces motifs d'une longueur donnée, et retient les correspondances possibles avant d'exécuter une recherche plus chronophage par l'utilisation d'un algorithme de type Smith-Waterman.

Le taille du motif, donnée par le paramètre ktup, contrôle la sensibilité et la rapidité du programme. Accroître la valeur du ktup diminue le nombre total de résultats pouvant être trouvés, mais accélère la rapidité du programme. À partir des résultats de motifs, le programme analyse les segments qui contiennent un groupe de résultats proches. Il traite ensuite ces segments afin de trouver des correspondances possibles.

Bien qu'il y ait quelques différences entre FASTN et FASTP concernant le type de séquence utilisé, ils traitent tous deux les données en quatre étapes et calculent trois scores pour décrire et formater les résultats de similarités de séquences. Ces étapes sont :

  • Identifier les régions de plus haute densité pour chaque comparaison. Utilisation d'un ktup égal à 1 ou 3.
Pour cette étape, toutes ou une partie des identités entre deux séquences sont identifiés à l'aide d'une table de correspondance. La valeur du ktup détermine combien d'identités consécutives sont requises pour qu'une correspondance puisse être déclarée. Ainsi plus la valeur de ktup est faible, plus la recherche est sensible. Un ktup de 2 est fréquemment utilisé pour une séquence protéique et un ktup de 4 ou 6 pour une séquence nucléique. Concernant les oligonucléotides courts, un ktup de 1 sera préféré. Le programme identifie ensuite toutes les régions locales similaires entre deux séquences, représentées par des diagonales de longueur variable sur un dot plot, en comptant les correspondances de ktup et en pénalisant les non-correspondances. De cette façon, les régions locales ayant une haute densité de correspondances sur la diagonale sont différenciées des l'ensemble des résultats. Pour les séquence protéiques, un score est calculé en utilisant une matrice de similarité entre acides aminés, comme BLOSUM50, pour chaque correspondance de ktup. Ceci permet aux groupes d'identités avec un score élevé de similarité de contribuer de façon plus importante au score de la diagonale de la région locale que les identités avec un faible score de similarité. Les séquences nucléiques utilisent quant à elles la matrice d'identité. Les dix meilleures régions locales sont sélectionnés sur toute la diagonale et sauvegardées.
  • Nouveau scan des régions sauvegardées à l'aide de matrices de similarité. Élimination des extrémités de chaque région pour inclure uniquement celle qui contribuent aux scores les plus élevés.
Le nouveau scan des dix régions sélectionnées est réalisé à l'aide d'une matrice de scores afin d'effectuer une recalibration permettant d'analyser des identités plus petite que la valeur du ktup. De plus, lors de la recalibration, les substitutions conservatives qui peuvent contribuer au score de similarité sont prises en compte. Bien que la matrice utilisée pour les séquences protéiques soit une matrice BLOSUM50, les matrices de scores basées sur le nombre minimum de changement de base requis pour une substitution spécifique, pour une identité unique ou pour une mesure alternative de similarité telle que la matrice de substitution PAM, peuvent aussi être utilisées. Pour chacune des régions de la diagonale rescannées de cette façon, une sous-région comprenant le score maximum est identifié. Les scores initialement trouvés à l'étape 1 sont utilisés pour ordonner les séquences de la base de données. Le score le plus élevé est désigné comme score init1.
  • Dans un alignement, si plusieurs régions initiales avec un score plus élevé que la valeur seuil (valeur CUTOFF) sont identifiées, vérifie si les régions initiales éliminées peuvent être jointes pour former un alignement approximatif comprenant des gaps. Calcule un score de similarité correspondant à la somme des scores des régions jointes avec une pénalité de 20 points pour chaque gap. Ce score initial (initn) est utilisé pour ordonner les séquences de la base de données. Le meilleur score de la région initialement trouvée à l'étape 2 (init1) est rapporté.
Le programme calcule un alignement optimal des régions initiales en combinant les régions compatibles présentant le meilleur score. Cet alignement optimal peut être rapidement calculé en utilisant une algorithme de programmation dynamique. Le score initn résultant est utilisé pour ordonner les séquences de la base de données. Cette méthode d'assemblage augmente la sensibilité mais diminue la sélectivité. Le calcul d'une valeur seuil pour contrôler cette étape a donc été implémenté : cette valeur correspond approximativement à un écart-type au-dessus du score moyen attendu pour des séquences sans rapport au sein des séquences de la base de données. Une séquence d'entrée de 200 résidus avec un ktup de 2 utilisera une valeur seuil de 28.
  • Utilise l'algorithme de Smith-Waterman par bande pour calculer une score optimal pour l'alignement.
Cette étape utilise un algorithme de Smith-Waterman par bande pour déterminer un score optimisé (opt) pour chaque alignement de la séquence d'entrée à la base de données. L'algorithme prend en compte une bande de 32 résidus centrée sur la région init1 de l'étape 2 pour calculer un alignement optimal. Après la recherche de l'ensemble des séquences, le programme détermine graphiquement les scores initiaux de chaque séquence de la base de données sur un histogramme et teste le score opt afin de savoir s'il est statistiquement significatif. Pour les séquences protéiques, l'alignement final est produit en utilisant un alignement complet de Smith-Waterman. Pour les séquences nucléiques, un alignement par bande est fourni.

Références

[modifier | modifier le code]
  1. ↑ a b c et d (en) Pearson WR. & Lipman DJ., « Improved tools for biological sequence comparison. », Proceedings of the National Academy of Sciences of the United States of America, vol. 85, no 8,‎ 1988, p. 2444-8 (ISSN 0027-8424, PMID 3162770, DOI 10.1073/pnas.85.8.2444)
  2. ↑ a et b (en) Lipman DJ. & Pearson WR., « Rapid and sensitive protein similarity searches. », Science (New York, N.Y.), vol. 227, no 4693,‎ 1985, p. 1435-41 (ISSN 0036-8075, PMID 2983426, DOI 10.1126/science.2983426)
  3. ↑ (en) William R. Pearson, « Documentation de la version 2.0 de la suite de programmes FASTA », sur Center for Biological Sequence analysis (consulté le 9 février 2013)
  4. ↑ (en) William R. Pearson, The FASTA program package, 2011, 29 p. (lire en ligne)
  5. ↑ (en) Cock PJ., Fields CJ., Goto N., Heuer ML. & Rice PM., « The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. », Nucleic Acids Research, vol. 38, no 6,‎ 2010, p. 1767-71 (ISSN 1362-4962, PMID 20015970, DOI 10.1093/nar/gkp1137)
  • (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « FASTA » (voir la liste des auteurs).

Voir aussi

[modifier | modifier le code]

Articles connexes

[modifier | modifier le code]
  • BLAST
  • format FASTA
  • Alignement de séquences
  • Programmes d'alignement de séquences
  • Liste de formats de fichier pour la biologie moléculaire

Liens externes

[modifier | modifier le code]
  • (en) Site officiel de FASTA
  • (en) FASTA sur EBI - Page web de l'EBI permettant d'accéder à la suite FASTA
  • (en) FASTA sur KEGG
v · m
Bio-informatique
Bases de données
Banques de séquences
  • GenBank
  • EMBL Nucleotide Sequence Database
  • DNA Data Bank of Japan (DDBJ)
Secondaires
  • Protein Information Resource (PIR)
  • Swiss-Prot
  • TrEMBL
  • UniProt
Autres
  • Ensembl
  • InterPro
  • Ontologie des maladies
  • Protein Data Bank
  • HomoloGene
Génomiques spécialisées
  • FlyBase
  • Saccharomyces Genome Database
  • The Arabidopsis Information Resource
  • WormBase
  • Zebrafish Information Network
  • Mouse Genome Informatics
Institutions
  • Institut européen de bio-informatique (EBI)
  • Institut japonais de génétique
  • Institut suisse de bioinformatique
  • Centre américain pour les informations biotechnologiques (NCBI)
Algorithme
  • BLAST
  • FASTA
  • Smith-Waterman
Divers
  • ExPASy
  • Organismes de recherche en génétique
  • General feature format
  • Alignement de séquences
  • Phylogénétique moléculaire
  • Séquençage
v · m
Branches de la biologie
  • Aérobiologie
  • Agrostologie
  • Anatomie
  • Anthropologie moléculaire
  • Arachnologie
  • Bactériologie médicale
  • Batracologie
  • Biochimie
  • Biogéographie
    • Biogéographie microbienne
    • Phylogéographie
    • Phytogéographie
    • Zoogéographie
  • Bio-informatique
  • Biomathématique
  • Biomécanique
  • Biophysique
  • Biosémiotique
  • Biostatistique
  • Biotechnologie
  • Biologie cellulaire
  • Biologie chimique
  • Biologie computationnelle
  • Biologie de la conservation
  • Biologie développementale
  • Biologie de l'évolution
  • Biologie humaine
  • Biologie médicale
  • Biologie marine
  • Biologie moléculaire
  • Biologie quantique
  • Biologie de la reproduction
  • Biologie structurale
  • Biologie de synthèse
  • Biologie des systèmes
  • Botanique
  • Cétologie
  • Chronobiologie
  • Chronopharmacologie
  • Cryobiologie
  • Cynologie
  • Cytogénétique
  • Dendrologie
  • Écologie
  • Embryologie
  • Épidémiologie
  • Épigénétique
  • Exobiologie
  • Félinologie
  • Génétique
  • Génie biologique
  • Génomique
  • Géobiologie
  • Gérontologie
  • Glirologie
  • Herpétologie
  • Hippologie
  • Histologie
  • Ichtyologie
  • Immunologie
  • Mammalogie
  • Microbiologie
  • Mycologie
  • Myriapodologie
  • Néonatalogie
  • Neurosciences
  • Nutrition
  • Oologie
  • Ophiologie
  • Ornithologie
  • Ostéologie
  • Paléontologie
  • Parasitologie
  • Pathologie
  • Pharmacologie
  • Phycologie
  • Phylogénie
  • Physiologie
  • Pomologie
  • Primatologie
  • Protéomique
  • Protistologie
  • Psittacologie
  • Sociobiologie
  • Systématique
  • Taxonomie
  • Tératologie
  • Toxicologie
  • Virologie
  • Xénobiologie
  • Zoologie
  • icône décorative Portail de la biologie
  • icône décorative Portail de la biologie cellulaire et moléculaire
  • icône décorative Portail de l’informatique
Ce document provient de « https://fr.teknopedia.teknokrat.ac.id/w/index.php?title=FASTA_(programme_informatique)&oldid=226383840 ».
Catégories :
  • Logiciel écrit en C
  • Biologie moléculaire
  • ADN
  • Protéine
  • Génétique
  • Bio-informatique
Catégories cachées :
  • Page utilisant P1324
  • Page utilisant P277
  • Logiciel catégorisé automatiquement par langage d'écriture
  • Page utilisant P306
  • Article utilisant une Infobox
  • Portail:Biologie/Articles liés
  • Portail:Sciences/Articles liés
  • Projet:Biologie/Pages liées
  • Portail:Biologie cellulaire et moléculaire/Articles liés
  • Portail:Informatique/Articles liés
  • Portail:Technologies/Articles liés

  • indonesia
  • Polski
  • الرية
  • Deutsch
  • English
  • Español
  • Français
  • Italiano
  • مصر
  • Nederlands
  • 本語
  • Português
  • Sinugboanong Binisaya
  • Svenska
  • Українска
  • Tiếng Việt
  • Winaray
  • 中文
  • Русски
Sunting pranala
Pusat Layanan

UNIVERSITAS TEKNOKRAT INDONESIA | ASEAN's Best Private University
Jl. ZA. Pagar Alam No.9 -11, Labuhan Ratu, Kec. Kedaton, Kota Bandar Lampung, Lampung 35132
Phone: (0721) 702022
Email: pmb@teknokrat.ac.id