Comment fonctionne un modèle ?
Un modèle de langage est un système statistique entraîné à prédire la suite la plus probable d'un texte. Il ne "comprend" pas au sens humain : il calcule des probabilités à partir de milliards d'exemples vus pendant l'entraînement.
Données et entraînement
Le modèle est entraîné sur d'immenses corpus de texte (livres, articles, code, sites web). Il apprend à associer des séquences de mots et de concepts. Plus les données sont variées et de qualité, plus le modèle est capable de généraliser.
L'entraînement ajuste des milliards de paramètres (poids) pour minimiser l'erreur de prédiction. C'est un processus coûteux en calcul et en énergie.
Réseaux neuronaux expliqués simplement
Un réseau de neurones est composé de couches interconnectées :
- Couche d'entrée : reçoit les données (ex. mots convertis en vecteurs)
- Couches cachées : effectuent des transformations non linéaires
- Couche de sortie : produit la prédiction (ex. probabilité du prochain mot)
[Entrée] ──→ [Neurone 1] ──┬──→ [Neurone A] ──→ [Sortie] [Neurone 2] ──┼──→ [Neurone B] ──→ [Neurone 3] ──┴──→ [Neurone C] ──→
Chaque connexion a un poids ajusté pendant l'entraînement. Plus il y a de couches et de neurones, plus le modèle peut capturer des patterns complexes — au prix d'une plus grande complexité.
Tokens et probabilités
Un token est une unité de texte traitée par le modèle : un mot, une partie de mot ou un caractère. « Intelligence » peut être 1 token ou 2 selon le tokenizer.
Pour générer du texte, le modèle :
- Prend le texte en entrée (votre prompt)
- Le tokenise
- Calcule la probabilité de chaque token possible pour la suite
- Choisit un token (selon la température : plus elle est haute, plus la sortie est créative)
- Répète jusqu'à obtenir la réponse complète
Différence Prompt / Contexte
Le prompt est ce que vous écrivez explicitement pour lancer la génération : votre question, votre consigne, l'amorce de texte.
Le contexte (ou « contexte de fenêtre ») regroupe tout ce qui est envoyé au modèle : le prompt + éventuellement l'historique de conversation + instructions système. Les modèles ont une limite de tokens (ex. 4K, 8K, 128K) : au-delà, les premières parties sont « oubliées ».
[Instructions système] + [Historique] + [Votre prompt] = Contexte complet
Types d'apprentissage
Le Machine Learning se décline en plusieurs paradigmes :
- Supervisé : le modèle apprend à partir de paires (entrée, sortie correcte). Ex. : classification d'emails spam/non spam.
- Non supervisé : le modèle découvre des structures dans les données sans étiquettes. Ex. : clustering, réduction de dimensionnalité.
- Par renforcement : le modèle apprend par essais/erreurs en recevant des récompenses ou pénalités. Ex. : AlphaGo, robots.
- Auto-supervisé : utilisé pour les LLM — le modèle prédit une partie masquée du texte (ex. le mot suivant) à partir du reste.
L'architecture Transformer
Les modèles de langage actuels reposent sur les Transformers. Le mécanisme d'attention permet au modèle de « regarder » différentes parties de l'entrée pour produire chaque token de sortie. Plus de récurrence (comme les RNN) : traitement parallèle des séquences, ce qui accélère l'entraînement sur de vastes corpus.
Limites et pièges
Comprendre les limites aide à utiliser l'IA de façon responsable :
- Hallucinations : l'IA peut inventer des faits, des références, des citations. Toujours vérifier les informations critiques.
- Biais : les modèles reflètent les biais des données d'entraînement (stéréotypes, discriminations).
- Cut-off date : les modèles ont une date de « coupure » — ils ne connaissent pas les événements récents.
- Contexte limité : au-delà de la fenêtre de contexte, les anciennes informations sont perdues.
Récapitulatif
1. Données massives → Entraînement 2. Réseau de neurones / Transformer → Millions/milliards de paramètres 3. Tokenisation → Texte découpé en unités 4. Prédiction probabiliste → Prochain token 5. Prompt + Contexte → Définit la tâche et le cadre