Le Transformer est une architecture de modèle de langage introduite par Google en 2017 dans l’article fondateur “Attention is All You Need”.
C’est aujourd’hui la base des modèles les plus puissants comme GPT, BERT, LLaMA ou Claude.
Son principal atout : il utilise un mécanisme appelé “attention”, qui permet au modèle de se concentrer sur les parties les plus importantes d’un texte, quelle que soit leur position.
Pourquoi le Transformer est révolutionnaire ?
Avant, les modèles traitaient les mots l’un après l’autre (RNN, LSTM). Le Transformer, lui, peut :
-
Traiter toutes les positions d’un texte en parallèle
-
Faire attention aux mots importants, même très éloignés dans la phrase
-
Apprendre plus rapidement et avec de meilleures performances
Comment ça marche (simplifié) :
-
Tokenisation :
Le texte est coupé en “tokens” (mots ou morceaux de mots). -
Encodage en vecteurs :
Chaque token est transformé en vecteur (nombre flottant) grâce à des embeddings. -
Ajout de la position :
Puisqu’on traite tous les mots en parallèle, on ajoute des encodages de position pour savoir qui est où. -
Mécanisme d’attention (Self-Attention) :
Chaque mot regarde tous les autres pour pondérer leur importance dans le contexte. -
Couches empilées (encoder/décodeur) :
Le modèle est formé de plusieurs couches identiques, où chaque couche raffine la compréhension du texte.
