N'attendez plus pour alléger votre quotidien
contact@stratagemes.net

Définition : Tokenisation (Tokenization)

La tokenisation est le processus qui consiste à découper un texte en unités élémentaires appelées « tokens », que ce soit des mots, des morceaux de mots, des caractères, ou même des groupes de caractères, selon le modèle utilisé.

C’est la première étape dans le traitement du langage naturel (NLP), utilisée par tous les modèles de langage (comme GPT, BERT, etc.).

Pourquoi tokeniser un texte ?

  • Pour transformer le texte brut en données exploitables par une IA

  • Pour encoder le texte sous forme numérique (vecteurs, matrices)

  • Pour gérer plus efficacement le sens et la structure linguistique

Exemples de tokenisation :

1. Par mots (classique)

Texte : "Je suis content aujourd’hui"
→ Tokens : ["Je", "suis", "content", "aujourd’hui"]

2. Par sous-mots (subwords)

Texte : "impressionnant"
→ Tokens : ["imp", "ress", "ion", "nant"]
➡️ Utilisé dans BERT et GPT pour mieux gérer les mots rares ou inventés

3. Par caractères (character-level)

Texte : "chat"
→ Tokens : ["c", "h", "a", "t"]
➡️ Utilisé dans des modèles très fins ou pour des langues complexes

Types de tokenisation selon les modèles :

Modèle Méthode de tokenisation Exemple
GPT (OpenAI) Subwords / Byte Pair Encoding (BPE) “playing” → ["play", "ing"]
BERT WordPiece “unaffordable” → ["un", "##affordable"]
T5 SentencePiece Utilise un vocabulaire appris automatiquement
Claude / Gemini Techniques hybrides internes

Pourquoi les tokens sont importants dans l’usage des IA ?

  • Les modèles de langage calculent et facturent souvent à la quantité de tokens (ex. : GPT-4 → 1 000 tokens ≈ 750 mots)

  • Certains prompts trop longs sont coupés ou tronqués si on dépasse la limite de tokens

  • Chaque token compte pour la mémoire contextuelle du modèle (ex. GPT-4 peut gérer 128k tokens dans sa version longue)

Outils utiles :

  • Tokenizer GPT : https://platform.openai.com/tokenizer

  • Python (transformers) : from transformers import AutoTokenizer

  • Tokenisation personnalisée : pour l’entraînement de modèles sur des langues rares ou du jargon métier

Autres définitions

Contactez nous pour obtenir votre pré-audit gratuite !