Technopedia Center
PMB University Brochure
Faculty of Engineering and Computer Science
S1 Informatics S1 Information Systems S1 Information Technology S1 Computer Engineering S1 Electrical Engineering S1 Civil Engineering

faculty of Economics and Business
S1 Management S1 Accountancy

Faculty of Letters and Educational Sciences
S1 English literature S1 English language education S1 Mathematics education S1 Sports Education
  • Registerasi
  • Brosur UTI
  • Kip Scholarship Information
  • Performance
  1. Weltenzyklopädie
  2. Transformeur — Wikipédia
Transformeur — Wikipédia 👆 Click Here! Read More..
Un article de Wikipédia, l'encyclopédie libre.
Page d’aide sur l’homonymie

Pour les articles homonymes, voir transformer.

Modèle transformeur
Schéma représentant l'architecture générale d'un transformeur.
Type
Réseau de neurones artificiels, modèle d'apprentissage profond (d)Voir et modifier les données sur Wikidata
Date d'invention
12 juin 2017[1]Voir et modifier les données sur Wikidata
Décrit par
Attention Is All You Need (en)Voir et modifier les données sur Wikidata

modifier - modifier le code - modifier WikidataDocumentation du modèle

Un transformeur (ou modèle auto-attentif) est une architecture d'apprentissage profond introduite en 2017[2]. Elle est principalement utilisée dans le domaine du traitement automatique des langues en servant de base aux grands modèles de langage[3], mais peut aussi servir à traiter d'autres modalités comme les images[4], les vidéos ou le son, parfois simultanément[5].

À l'instar des réseaux de neurones récurrents (RNN pour recurrent neural network en anglais), les transformeurs sont conçus pour gérer des données séquentielles, notamment du texte, pour des tâches telles que la traduction et la génération de texte. Cependant, contrairement aux RNN, les transformeurs ne nécessitent pas un traitement séquentiel des données. Ainsi, pour une phrase en entrée, un transformeur peut analyser simultanément différentes parties du texte, sans devoir commencer par le début. Cette caractéristique permet aux transformeurs d'offrir une parallélisation supérieure à celle des RNN, réduisant ainsi le temps d'entraînement des modèles.

Les transformeurs sont devenus le modèle de choix pour les problèmes de traitement automatique des langues, remplaçant les anciens modèles de réseaux de neurones récurrents tels que le LSTM. Étant donné que le modèle transformeur facilite davantage la parallélisation pendant l'entraînement, celui-ci peut s'effectuer sur des ensembles de données plus volumineux. Cela a conduit au développement de systèmes pré-entraînés tels que BERT (Bidirectional Encoder Representations from Transformers) et GPT (Generative Pre-Trained Transformer), qui ont été entraînés sur d'énormes ensembles de données textuelles, incluant des sources diverses telles que Wikipédia, et peuvent être affinés pour réaliser des tâches linguistiques spécifiques.

Contexte

[modifier | modifier le code]

Avant l'introduction des transformeurs, la majorité des systèmes de traitement automatique des langues reposaient sur des réseaux de neurones récurrents (RNN) chainés, tels que les LSTMs et les GRUs (Gated recurrent units en anglais), enrichis avec des mécanismes d'attention[6]. Le transformeur s'appuie sur ces techniques d'attention sans utiliser de structure RNN, mettant ainsi en évidence que les mécanismes d'attention seuls sont suffisamment puissants pour réaliser les performances des RNN avec attention.

Réseaux de neurones récurrents

[modifier | modifier le code]

Les RNN chainés traitent les lexèmes (tokens en anglais) séquentiellement, en maintenant un vecteur d'état qui contient une représentation des données vues après chaque lexème. Pour traiter le n-ième lexème, le modèle combine l'état représentant la séquence d'entrée jusqu'au (n-1)-ième lexème avec l'information du nouveau lexème pour créer un nouvel état représentant la séquence d'entrée jusqu'au n-ième lexème. Théoriquement, l'information d'un lexème peut se propager loin vers le début de la séquence d'entrée, si à chaque point l'état continue à encoder de l'information relative au lexème. Mais en pratique, ce mécanisme est imparfait : à cause du problème de l'évanescence du gradient (en), l'état du modèle à la fin du traitement d'une longue séquence d'entrée n'arrive pas à se rappeler une information précise à propos des premiers lexèmes.

Mécanisme d'attention

[modifier | modifier le code]
Article détaillé : Attention (apprentissage automatique).

Ce problème a été résolu par l'introduction des mécanismes d'attention. Ces mécanismes permettent à un modèle de regarder directement et d'extraire l'état de n'importe quel lexème précédent dans la séquence. La couche d'attention peut accéder à tous les précédents états et leur donner un poids selon leur pertinence par rapport au lexème courant, fournissant ainsi une information saillante sur les lexèmes éloignés.

L'attention est par exemple utilisée en traduction. Dans un système de traduction d'une phrase en anglais vers une phrase équivalente en français, le premier mot français de la séquence de sortie dépend le plus probablement du début de la séquence d'entrée. Cependant, dans un modèle classique d'encodeur-décodeur à base de LSTMs, dans le but de produire le premier mot de la séquence de mots en français, le modèle reçoit seulement le vecteur d'état du dernier mot en anglais. Théoriquement, ce vecteur peut encoder l'information de toute la phrase en anglais, donnant ainsi au modèle toute la connaissance nécessaire, mais en pratique cette information n'est souvent pas bien préservée. En introduisant un mécanisme d'attention, le modèle peut à la place apprendre des états liés aux lexèmes anglais précédents lorsqu'il produit le début d'une sortie en français, donnant ainsi une meilleure compréhension de ce qu'il traduit.

Garder l'attention en se débarrassant des RNN

[modifier | modifier le code]

Ajoutés aux RNN, les mécanismes d'attention ont amené de larges gains de performance. L'introduction du transformeur a mis en lumière le fait que les mécanismes d'attention étaient suffisamment puissants pour se suffire à eux-mêmes, sans nécessiter de RNN[2]. Le fait que les transformeurs ne s'appuient pas sur un traitement séquentiel, et qu'ils permettent de mettre facilement en œuvre de la parallélisation, permet aux transformeurs d'être entraînés plus efficacement sur de grands jeux de données.

Architecture

[modifier | modifier le code]

Comme les modèles précédemment inventés pour le traitement d'une séquence de taille variable en une autre séquence de taille variable, le transformeur utilise une architecture d'encodeur-décodeur. L'encodeur consiste en un ensemble de couches d'encodage qui traitent la séquence d'entrée itérativement couche après couche et le décodeur consiste en un ensemble de couches de décodage qui effectue la même chose sur la séquence de sortie de l'encodeur.

La fonction de chaque encodeur est de traiter sa séquence d'entrée pour générer des encodages contenant de l'information sur les entrées qui sont pertinentes entre elles. Il passe son ensemble d'encodages à l'encodeur suivant. Chaque décodeur réalise l'opération inverse, en prenant et traitant tous les encodages, puis en utilisant l'information contextuelle qui y est présente pour générer la séquence de sortie. A cette fin, chaque encodeur et décodeur utilisent un mécanisme d'attention, qui, pondère la pertinence de chaque lexème de l'entrée par rapport à chaque autre lexème de l'entrée et en élabore de l'information en conséquence pour produire la sortie[7]. Chaque couche du décodeur met aussi en œuvre un mécanisme d'attention qui extrait de l'information des sorties des précédents décodeurs, avant que la couche du décodeur n'extraie de l'information des flux encodés. L'encodeur et le décodeur contiennent tous les deux un réseau de neurones à propagation avant pour un traitement additionnel des sorties, des connexions résiduelles, ainsi qu'une couche de normalisation.

L'opération matricielle d'attention

[modifier | modifier le code]

Les modules élémentaires d'un transformeur sont les unités d'un produit matriciel pondéré. Lorsqu'une séquence est fournie au modèle transformeur, les poids d'attention sont calculés entre eux simultanément. L'unité d'attention fournit des plongements lexicaux (embeddings) pour chaque lexème qui contiennent non seulement de l'information sur le lexème courant lui-même, mais aussi une information pondérée des autres lexèmes pertinents.

Concrètement, pour chaque unité d'attention, le transformeur apprend trois matrices de poids ; les poids de la requête (query) W Q {\displaystyle W_{Q}} {\displaystyle W_{Q}}, les poids de la clé (key) W K {\displaystyle W_{K}} {\displaystyle W_{K}}, et les poids de la valeur (value) W V {\displaystyle W_{V}} {\displaystyle W_{V}}. Pour chaque lexème i {\displaystyle i} {\displaystyle i} de la séquence d'entrée, le vecteur de plongement du mot (word embedding) x i {\displaystyle x_{i}} {\displaystyle x_{i}} est multiplié avec chacune des trois matrices W Q {\displaystyle W_{Q}} {\displaystyle W_{Q}}, W K {\displaystyle W_{K}} {\displaystyle W_{K}}, W V {\displaystyle W_{V}} {\displaystyle W_{V}} pour produire respectivement un vecteur de requête q i = x i W Q {\displaystyle q_{i}=x_{i}W_{Q}} {\displaystyle q_{i}=x_{i}W_{Q}}, un vecteur de clé k i = x i W K {\displaystyle k_{i}=x_{i}W_{K}} {\displaystyle k_{i}=x_{i}W_{K}}, et un vecteur de valeur v i = x i W V {\displaystyle v_{i}=x_{i}W_{V}} {\displaystyle v_{i}=x_{i}W_{V}}.

Les poids d'attention sont calculés en utilisant les vecteurs de requête et de clé : le poids d'attention a i j {\displaystyle a_{ij}} {\displaystyle a_{ij}} du lexème i {\displaystyle i} {\displaystyle i} sur le lexème j {\displaystyle j} {\displaystyle j} est la résultante du produit scalaire de q i {\displaystyle q_{i}} {\displaystyle q_{i}} et k j {\displaystyle k_{j}} {\displaystyle k_{j}}. Les poids d'attention sont divisés par la racine carrée de la dimension des vecteurs clé, d k {\displaystyle {\sqrt {d_{k}}}} {\displaystyle {\sqrt {d_{k}}}}, ce qui permet d'obtenir des vecteurs de variance 1, puis passent à travers une fonction softmax qui normalise les poids de manière qu'ils correspondent à une distribution de probabilité — positifs et de somme 1 {\displaystyle 1} {\displaystyle 1}. Le fait que W Q {\displaystyle W_{Q}} {\displaystyle W_{Q}} et W K {\displaystyle W_{K}} {\displaystyle W_{K}} soient des matrices différentes permet à l'attention d'être non symétrique: si un lexème i {\displaystyle i} {\displaystyle i} affecte un autre lexème j {\displaystyle j} {\displaystyle j} (i.e. que q i ⋅ k j {\displaystyle q_{i}\cdot k_{j}} {\displaystyle q_{i}\cdot k_{j}} soit grand), cela n'implique pas forcément que le lexème j {\displaystyle j} {\displaystyle j} affecte le lexème i {\displaystyle i} {\displaystyle i} (i.e. q j ⋅ k i {\displaystyle q_{j}\cdot k_{i}} {\displaystyle q_{j}\cdot k_{i}} est grand). La sortie de l'unité d'attention pour le lexème i {\displaystyle i} {\displaystyle i} est la somme pondérée des vecteurs de valeurs de tous les lexèmes, pondérée par a i j {\displaystyle a_{ij}} {\displaystyle a_{ij}}, l'attention du lexème i {\displaystyle i} {\displaystyle i} sur chaque autre lexème.

Le calcul d'attention pour l'ensemble des lexèmes peut être exprimé comme un produit matriciel, opération réalisable rapidement par les cartes graphiques, à l'aide de shaders.

Le calcul ci-avant peut alors s'écrire comme suit : Attention ( Q , K , V ) = softmax ( Q K T d k ) V {\displaystyle {\begin{aligned}{\text{Attention}}(Q,K,V)={\text{softmax}}\left({\frac {QK^{\mathrm {T} }}{\sqrt {d_{k}}}}\right)V\end{aligned}}} {\displaystyle {\begin{aligned}{\text{Attention}}(Q,K,V)={\text{softmax}}\left({\frac {QK^{\mathrm {T} }}{\sqrt {d_{k}}}}\right)V\end{aligned}}}

où le vecteur K {\displaystyle K} {\displaystyle K}est transposé afin de rendre les dimensions compatibles.

L'attention multi-tête

[modifier | modifier le code]

Un ensemble composé des matrices ( W Q , W K , W V ) {\displaystyle \left(W_{Q},W_{K},W_{V}\right)} {\displaystyle \left(W_{Q},W_{K},W_{V}\right)} est appelé une tête d'attention. L'initialisation de la valeur des poids de ces matrices étant aléatoire, certaines valeurs initiales peuvent déstabiliser le processus d'apprentissage. D'où l'utilisation de plusieurs têtes d'attention dans chaque couche d'un transformeur pour rendre plus robuste l'apprentissage.

Étant donné que les transformeurs possèdent plusieurs têtes d'attention, ils ont la possibilité d'être traités en parallèle, ce qui rend le traitement de la séquence d'entrée rapide. Les multiples sorties de l'attention multi-tête sont ensuite concaténées pour être passées aux couches de réseaux de neurones à propagation avant.

Multi-Head Latent Attention

[modifier | modifier le code]

Une évolution de l'architecture des transformeurs est le Multi-Head Latent Attention[8] (MHLA), cette architecture a pour but l'amélioration de l’efficacité des modèles d'attention. Introduite en 2024, cette approche repose sur l’idée d’introduire un espace latent intermédiaire, partagé par plusieurs têtes d’attention. Au lieu que chaque tête projette directement les clés ( K ) {\displaystyle (K)} {\displaystyle (K)}, requêtes ( Q ) {\displaystyle (Q)} {\displaystyle (Q)} et valeurs ( V ) {\displaystyle (V)} {\displaystyle (V)} depuis les entrées, celles-ci interagissent via un ensemble réduit de vecteurs latents E K , E V ∈ R L × r {\displaystyle E_{K},E_{V}\in \mathbb {R} ^{L\times r}} {\displaystyle E_{K},E_{V}\in \mathbb {R} ^{L\times r}}, agissant comme une mémoire intermédiaire. Cette structure permet de décorréler l’espace des entrées de l’espace de traitement, réduisant la complexité computationnelle. Cette architecture est notamment utilisée dans le modèle DeepSeek-V2[9].

Pré-entraînement

[modifier | modifier le code]
Article détaillé : Transformeur génératif pré-entraîné.

La grande majorité des transformeurs performants sont pré-entraînés sur de grands ensembles de données, avant d'être affinés sur le problème visé (fine-tuning). Ce pré-entraînement est ainsi en général effectué sur des problèmes d'apprentissage auto-supervisé pour ne pas être limité par le besoin de données labellisées.

En vision, la première proposition à démontrer ce que peuvent apporter les transformeurs par rapport aux réseaux de neurones convolutifs, est une application directe de l'encodeur d'un transformeur classique sur une séquence de morceaux des images. Ce réseau, baptisé ViT[10], a pu dépasser la performance atteinte par les réseaux de neurones convolutifs de l'époque. Il a été pré-entraîné avec un jeu de données propriétaire de Google, JFT-3B, contenant quelque 3 milliards d'images.

Notes et références

[modifier | modifier le code]
  1. ↑ (en) Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser et Illia Polosukhin, « Attention is All you Need », Advances in Neural Information Processing Systems 30,‎ 12 juin 2017 (arXiv 1706.03762, lire en ligne).Voir et modifier les données sur Wikidata
  2. ↑ a et b (en) Ashish Vaswani, « Attention Is All You Need », 2017
  3. ↑ (en) Margaret Rouse, « Large Language Model (LLM) », Techopedia,‎ 28 juillet 2023 (lire en ligne)
  4. ↑ (en) Yugesh Verma, « Hands-on guide to using Vision transformer for Image classification », sur Analytics India Magazine, 29 janvier 2022 (consulté le 12 décembre 2023)
  5. ↑ (en) Aayush Mittal, « Google's Multimodal AI Gemini - A Technical Deep Dive », sur Unite.AI, 11 décembre 2023 (consulté le 13 décembre 2023)
  6. ↑ (en) Dzmitry Bahdanau, « A Neural Machine Translation by Jointly Learning to Align and Translate », 2014
  7. ↑ Jay Alammar, « Le Transformer illustré », 2020
  8. ↑ Fanxu Meng, Zengwei Yao et Muhan Zhang, TransMLA: Multi-Head Latent Attention Is All You Need, 2025 (DOI 10.48550/ARXIV.2502.07864, lire en ligne)
  9. ↑ DeepSeek-AI, Aixin Liu, Bei Feng et Bin Wang, DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model, 2024 (DOI 10.48550/ARXIV.2405.04434, lire en ligne)
  10. ↑ (en) Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov et Dirk Weissenborn, « An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale », arXiv:2010.11929 [cs],‎ 3 juin 2021 (lire en ligne, consulté le 29 mai 2022).

Voir aussi

[modifier | modifier le code]

Sur les autres projets Wikimedia :

  • transformeur, sur le Wiktionnaire
  • Réseaux de neurones, sur Wikiversity

Articles connexes

[modifier | modifier le code]
  • Réseau de neurones artificiels
  • Réseau de neurones récurrents
  • Transformeur génératif pré-entraîné (GPT)
v · m
Intelligence artificielle (IA)
Concepts
  • Effet IA
  • Grand modèle de langage
  • Hallucination (IA)
  • IA générale
  • IA générative
Techniques
  • Analyse prédictive
  • Apprentissage automatique
  • Apprentissage non supervisé
  • Apprentissage profond
  • Apprentissage supervisé
  • Machine d'apprentissage logique
  • Modèle de fondation
  • Modèle des croyances transférables
  • IA symbolique
  • Réseau bayésien
  • Réseau de neurones artificiels
    • Réseau de neurones récurrents
    • Réseau neuronal convolutif
    • Transformeur
    • Transformeur génératif préentraîné
Applications
  • Art créé par IA
  • Apple Intelligence
  • ChatGPT
  • Conséquences économiques de l'intelligence artificielle
  • DeepL
  • Diagnostic (IA)
  • Écriture assistée par IA
  • IA dans la santé
  • IA dans le jeu vidéo
  • Perception artificielle
  • Planification (IA)
  • Robotique
  • Traduction automatique
  • Traitement automatique des langues
  • Véhicule autonome
  • Vision par ordinateur
Enjeux et philosophie
  • Alignement des intelligences artificielles
  • Chambre chinoise
  • Conscience artificielle
  • Contrôle des capacités de l'IA
  • Détection de contenu généré par intelligence artificielle
  • Éthique de l'IA
  • IA digne de confiance
  • Philosophie de l'IA
  • Sûreté de l'IA
Histoire et événements
  • Histoire de l'intelligence artificielle
  • Logic Theorist (1955)
  • Perceptron (1957)
  • General Problem Solver (1959)
  • Prolog (1972)
  • Matchs Deep Blue contre Kasparov (1996-1997)
  • Match AlphaGo - Lee Sedol (2016)
  • Sommet pour l'action sur l'intelligence artificielle (2025)
Concepts prospectifs
  • Anticipation (IA)
  • IA-complet
  • IA générale
  • Risque de catastrophe planétaire lié à l'intelligence artificielle générale
  • Superintelligence
Règlementation
  • Réglementation de l'IA
  • Règlement de l'UE
Organisations
  • Agence francophone pour l'IA
  • Anthropic
  • Google DeepMind
  • OpenAI
  • Partenariat sur l'IA
Ouvrages
  • Déclaration de Montréal pour un développement responsable de l'intelligence artificielle
  • Lettre ouverte sur l'IA
  • Power and Progress
  • Intelligence artificielle : une approche moderne
  • I.A. La Plus Grande Mutation de l'Histoire
v · m
Apprentissage automatique et exploration de données
Paradigmes
  • Apprentissage supervisé
  • Auto-supervisé
  • Semi-supervisé
  • Non supervisé
  • Apprentissage par renforcement
  • Transfert
  • Incrémental
Problèmes
  • Classement
  • Clustering
  • Détection d'anomalies
  • Optimisation en ligne
  • Modèle génératif
  • Régression
  • Règle d'association
  • Réduction de dimensions
    • Analyse factorielle
    • Sélection de caractéristique
    • Extraction de caractéristique
Supervisé
Classement
  • Arbre de décision
  • k-NN
  • U-matrix
  • CRF
  • Régression logistique
Régression
  • Modèle linéaire généralisé
    • Régression linéaire
    • Régression de Poisson
    • Modèle probit
  • Analyse discriminante linéaire
  • Machine à vecteurs de support
Prédiction structurée
  • Modèle graphique
    • Classification naïve bayésienne
    • Réseau bayésien
    • Modèle de Markov caché
Réseau de neurones
artificiels
  • Récurrents
    • Rétropropagation à travers le temps
    • Calcul par réservoir
  • à action directe
    • Rétropropagation du gradient
    • Apprentissage profond
    • Perceptron
    • Perceptron multicouche
    • Réseau neuronal convolutif
    • Attention
  • Réseau de neurones à impulsions
Non supervisé et
auto-supervisé
Découverte de structures
  • Clustering
    • Regroupement hiérarchique
    • K-moyennes
    • Algorithme espérance-maximisation
    • DBSCAN
    • OPTICS
  • Règle d'association
Réduction de dimensions
  • ACP
  • ACP à noyaux
  • Analyse en composantes indépendantes
  • Analyse canonique des corrélations
  • Analyse canonique à noyaux
  • t-SNE
  • Réseau de neurones artificiels
    • Auto-encodeur
IA générative
et modèle génératif
  • Réseau de neurones artificiels
    • Réseaux antagonistes génératifs
      • Classique
      • de Wasserstein)
    • Auto-encodeur variationnel
    • Réseau de Hopfield
    • Machine de Boltzmann restreinte
    • Cartes de Kohonen
    • Transformeur
Métaheuristique
d'optimisation
  • Stratégie d'évolution et génétique
    • NEAT
    • HyperNEAT
  • Essaims
  • Apprentissage ensembliste
    • Forêts aléatoires
    • Boosting
Théorie
  • Apprentissage PAC
  • Complexité de Rademacher
  • Dilemme biais-variance
  • Hypothèse de la variété
  • Théorie de Vapnik-Chervonenkis
    • Pulvérisation
    • Dimension de Vapnik-Chervonenkis
  • Théorème de Cover
Logiciels
  • Keras
  • Microsoft Cognitive Toolkit
  • Scikit-learn
  • TensorFlow
  • Theano
  • Weka
  • PyTorch
  • icône décorative Portail de l’intelligence artificielle
Ce document provient de « https://fr.teknopedia.teknokrat.ac.id/w/index.php?title=Transformeur&oldid=231880770 ».
Catégories :
  • Réseau de neurones artificiels
  • Traitement automatique du langage naturel
Catégories cachées :
  • Page utilisant des données de Wikidata à traduire de l'anglais
  • Page utilisant P279
  • Page utilisant P575
  • Page utilisant P1343
  • Article utilisant l'infobox Méthode scientifique
  • Article utilisant une Infobox
  • Article contenant un appel à traduction en anglais
  • Portail:Intelligence artificielle/Articles liés
  • Portail:Informatique/Articles liés
  • Portail:Technologies/Articles liés

  • indonesia
  • Polski
  • الرية
  • Deutsch
  • English
  • Español
  • Français
  • Italiano
  • مصر
  • Nederlands
  • 本語
  • Português
  • Sinugboanong Binisaya
  • Svenska
  • Українска
  • Tiếng Việt
  • Winaray
  • 中文
  • Русски
Sunting pranala
Pusat Layanan

UNIVERSITAS TEKNOKRAT INDONESIA | ASEAN's Best Private University
Jl. ZA. Pagar Alam No.9 -11, Labuhan Ratu, Kec. Kedaton, Kota Bandar Lampung, Lampung 35132
Phone: (0721) 702022
Email: pmb@teknokrat.ac.id