Retour à Nos travaux

LARA : Améliorations composables de transformeurs
via une ablation systématique

Latent Adaptive Reasoning Architecture
Sébastien Tamagno
TMG Consulting
sebastien@tmgconsulting.eu
En cours d'évaluation — Prépublication 2025
13,14 Perplexité (C4, 50k iters)
16× Compression cache KV
124,6M Paramètres (meilleure config)

Résumé

Nous introduisons LARA (Latent Adaptive Reasoning Architecture), un framework de recherche pour l'évaluation systématique des améliorations modernes de transformeurs en tant que briques composables indépendantes. Nous implémentons huit techniques publiées — Differential Attention, Multi-Head Latent Attention (MLA), Mixture of Recursions, Recurrent Depth Scaling, Coconut Latent Reasoning, Titans Neural Memory, Depth Cross-Attention et Rotary Position Embeddings (RoPE) — sous un protocole d'entraînement unifié, permettant des ablations contrôlées à budgets iso-paramètres et iso-tokens.

Notre meilleure configuration (MLA + Profondeur Récurrente + Titans + DCA + RoPE) atteint une perplexité de 13,14 avec 124,6M de paramètres entraînés sur seulement 500M tokens du corpus C4, surpassant Pythia-160M entraîné sur 300B tokens en perplexité hors-distribution. Un avantage architectural clé est une compression 16× du cache KV via MLA sans dégradation de perplexité.

Nous caractérisons également l'interaction entre la durée d'entraînement, la composition du corpus et les performances sur les benchmarks en aval : la perplexité et la précision des tâches divergent sous un entraînement prolongé sur un budget de tokens fixe, et le domaine du corpus affecte significativement quels benchmarks en bénéficient. Le code et les poids des modèles sont publiés.

Sommaire

  1. Introduction
  2. Contexte et travaux connexes
  3. L'architecture LARA
  4. Expériences
  5. Analyse
  6. Conclusion
  7. Remerciements
  8. Références

1. Introduction

Le paysage des améliorations de transformeurs s'est étendu rapidement, avec des dizaines d'innovations architecturales proposées ces dernières années. Cependant, la plupart sont évaluées isolément dans des conditions d'entraînement variables, rendant les comparaisons directes difficiles. Les praticiens font face à un défi combinatoire : quel sous-ensemble d'améliorations adopter, et se composent-elles de manière additive ?

Nous répondons à cela via LARA, un framework conçu pour l'ablation compositionnelle : chaque amélioration est implémentée comme un drapeau de bascule dans une configuration de modèle partagée, entraînée dans des conditions identiques (jeu de données, optimiseur, taille de batch, planning de taux d'apprentissage). Cette conception nous permet d'attribuer les différences de performance directement aux choix architecturaux plutôt qu'aux artefacts d'entraînement.

Contributions

1
Implémentation unifiée de huit améliorations de transformeurs comme modules composables.
2
Ablations contrôlées sur neuf expériences (A–I) à 5 000 itérations d'entraînement, isolant la contribution de chaque technique.
3
Expérience à long horizon (50 000 itérations) : notre meilleure architecture atteint PPL 13,14 sur C4 avec 124,6M de paramètres et 500M tokens d'entraînement.
4
Caractérisation empirique de l'effet de la composition du corpus sur la relation PPL–benchmark sous entraînement prolongé.
5
Compression 16× du cache KV (MLA) sans coût de perplexité mesuré.

3. L'architecture LARA

3.1 Conception unifiée du modèle

LARA étend un transformeur standard de type GPT avec des modules optionnels contrôlés par des drapeaux booléens dans un ModelConfig partagé. Le modèle de référence utilise l'attention multi-têtes standard avec des embeddings positionnels absolus. Chaque brique remplace ou augmente un composant :

3.2 Multi-Head Latent Attention

MLA décompose la projection clé-valeur en une projection descendante WDKV ∈ ℝd_c × d et des projections montantes WUK, WUV ∈ ℝd × d_c, où d_c ≪ d. À l'inférence, seul le latent compressé c_tKV = WDKV x_t ∈ ℝd_c est mis en cache par token, atteignant un ratio de compression d/d_c. Dans notre configuration, d = 1 024 et d_c = 64, donnant une réduction 16× du cache KV.

3.3 Depth Cross-Attention (DCA)

DCA augmente chaque bloc transformer ℓ avec un terme de cross-attention à portail :

h' = h + σ(g) · CrossAttn(h, e, e)

e_ℓ ∈ ℝd est un embedding de profondeur appris et g_ℓ est initialisé à −4,6 (sigmoid ≈ 0,01). Cela garantit que la DCA est quasi inactive à l'initialisation et monte organiquement pendant l'entraînement.

3.4 Configurations expérimentales

IDNomBriques activesNotes
AbaselineAucuneGPT standard
Bdiff_attnDiffAttn
CmorDiffAttn + MoR
DcoconutDiffAttn + MoR + Coconut
Elara_fullToutes les briques Phase-1
Flara_v2MLA + ProfRéc + Titans16× KV
Glara_v2_fullF + CoconutDifféré
Hlara_v2_dca F + DCA16× KV
Ilara_v2_rope MeilleureH + RoPE16× KV

Tableau 1. Configurations expérimentales. ★ = contribution DCA.

4. Expériences

4.1 Protocole

Matériel. Toutes les expériences s'exécutent sur un GPU NVIDIA L4 (23 Go VRAM) via Lightning.ai.

Protocole d'entraînement. Sauf indication contraire, chaque modèle est entraîné pendant 5 000 itérations avec une taille de batch de 8 et une accumulation de gradient de 16 étapes (batch effectif ≈ 8 000 tokens × 512 ≈ 4M tokens par étape, ≈ 330M tokens au total). Nous utilisons AdamW avec β₁ = 0,9, β₂ = 0,95, weight decay 0,1, et un planning de taux d'apprentissage cosinus de 3×10⁻⁴ à 3×10⁻⁵ avec 500 étapes de réchauffement. Tous les modèles utilisent d = 1 024, n_layer = 6, n_head = 8 et une taille de bloc de 512.

Jeux de données. Les ablations courtes (5 000 iters) utilisent FineWeb-Edu, un sous-ensemble éducatif de haute qualité de CommonCrawl. Les exécutions longues (50 000 iters) comparent FineWeb-Edu et C4 pour étudier les effets du corpus.

Évaluation. La perplexité est mesurée sur un ensemble de validation de 10M tokens hors-distribution. Les benchmarks en aval (HellaSwag, ARC-Easy, LAMBADA) sont évalués en 0-shot via lm-evaluation-harness.

4.2 Résultats d'ablation

#ExpérienceBriquesParamsPPL↓Tok/s↑KVIters
Abaseline203M~52*7005k
Bdiff_attnDiffAttn127,5M70,561 2315k
CmorDiffAttn+MoR127,5M74,524335k
Dcoconut+Coconut128,5M~90*3575k
Elara_fullPhase-1 complète135,9M~80*3345k
Flara_v2MLA+ProfRéc+Titans190M~58*39516×5k
Hlara_v2_dca +DCA125,1M60,8448616×5k
Ilara_v2_rope+RoPE124,6M~52*47216×5k
Ilara_v2_rope (50k, FW)+RoPE124,6M14,6647216×50k
Ilara_v2_rope (50k, C4) Meilleure+RoPE124,6M13,1444016×50k

Tableau 2. Résultats d'ablation à 5 000 et 50 000 itérations.

* = point de contrôle perdu, PPL estimé à partir du val_loss enregistré.

Observations Phase 1. DiffAttn seul (B, PPL 70,56) obtient le meilleur résultat sur une seule brique. L'ajout de MoR (C) augmente légèrement le PPL, suggérant qu'à 5 000 itérations, le surcoût du routage l'emporte sur les bénéfices. Coconut (D) sous-performe à court terme, conformément à sa conception par curriculum nécessitant un entraînement prolongé. La pile complète Phase-1 (E) ne présente pas de synergie additive à iso-itérations, motivant la refonte Phase 2.

Observations Phase 2. Le passage à MLA (compression KV 16×) avec Profondeur Récurrente et Titans (F) atteint ~58 PPL tout en réduisant drastiquement la mémoire du cache KV. DCA (H) améliore le PPL à 60,84 avec un léger gain de débit. RoPE (I) égale le PPL de référence (~52) avec une compression 16×, confirmant que MLA, DCA et RoPE se composent sans interférence.

Entraînement prolongé. L'entraînement de lara_v2_rope sur 50 000 itérations sur FineWeb-Edu atteint PPL 14,66. Le passage au corpus C4 améliore encore le résultat jusqu'à PPL 13,14, surpassant Pythia-160M en perplexité hors-distribution malgré seulement 500M tokens d'entraînement contre 300B pour Pythia.

4.3 Benchmarks en aval

ModèleCorpus (iters)ParamsHellaSwagARC-EasyLAMBADA
Pythia-160M †300B tokens160M30,18 %39,81 %32,89 %
GPT-2 †40B tokens117M31,08 %39,60 %32,10 %
diff_attnFW-Edu (5k)127,5M26,47 %35,27 %8,21 %
morFW-Edu (5k)127,5M26,62 %34,89 %7,67 %
lara_v2_dca FW-Edu (5k)125,1M26,30 %36,78 %9,33 %
lara_v2_ropeFW-Edu (5k)124,6M26,45 %34,55 %7,63 %
lara_v2_ropeFW-Edu (50k)124,6M25,45 %29,67 %1,59 %
lara_v2_ropeC4 (50k)124,6M26,34 %26,73 %4,50 %

Tableau 3. Scores des benchmarks en 0-shot. † = entraîné sur des budgets de tokens bien supérieurs.

5. Analyse

5.1 Divergence PPL–benchmark sous entraînement prolongé

Un résultat notable est que la perplexité et la précision des benchmarks en aval divergent significativement sous un entraînement prolongé sur un budget de tokens fixe. L'exécution FineWeb-Edu à 50k iters atteint PPL 14,66 (une amélioration 3,5× par rapport à 5k) mais perd 5–6 points sur ARC-Easy et 6 points sur LAMBADA par rapport à l'exécution à 5k. L'exécution C4 à 50k iters récupère partiellement LAMBADA (+2,9 points) mais dégrade encore ARC-Easy.

Nous attribuons cela au surapprentissage de la distribution : avec seulement 500M tokens uniques, 50 000 itérations correspondent à environ 30 passages sur les mêmes données. Le modèle mémorise les statistiques de surface de la distribution d'entraînement, améliorant le PPL hors-distribution sur le même domaine tout en perdant la généralisation inter-domaines. Ce résultat est cohérent avec Muennighoff et al. (2023), qui montrent que les données répétées sont néfastes au-delà d'un petit nombre d'époques.

5.2 Effets de la composition du corpus

La comparaison des exécutions à 50k sur FineWeb-Edu et C4 révèle des effets spécifiques au corpus :

Cela suggère que l'alignement du domaine du corpus avec la distribution d'évaluation cible est un levier plus puissant que la durée d'entraînement pour les performances sur les benchmarks.

5.3 Compression du cache KV

La compression 16× du cache KV de MLA (de d = 1 024 à d_c = 64) est obtenue sans coût de perplexité : lara_v2_rope à 5k iters (~52 PPL, 16× KV) égale la référence (~52 PPL, 1× KV) à nombre de paramètres égal. Cette compression permet des fenêtres de contexte significativement plus longues à mémoire GPU fixe, un avantage pratique crucial pour l'inférence.

5.4 Analyse du débit

DiffAttn (B) atteint le débit le plus élevé (1 231 tok/s) grâce à son efficacité en paramètres. Les modèles Phase 2 (F–I) échangent une partie du débit (440–486 tok/s) contre la compression KV et une meilleure PPL à grande échelle. La porte DCA ajoute un surcoût minimal, cohérent avec son initialisation proche de zéro.

6. Conclusion

Nous avons présenté LARA, un framework d'ablation composable des améliorations de transformeurs. Nos expériences montrent que la combinaison MLA, Profondeur Récurrente, Titans, DCA et RoPE atteint la meilleure perplexité (13,14 sur C4) parmi toutes les configurations testées, avec une compression 16× du cache KV et 124,6M de paramètres entraînés sur 500M tokens. Nous identifions également une divergence systématique PPL–benchmark sous entraînement à données répétées, et un fort effet de domaine du corpus sur les performances spécifiques aux tâches.

Ces résultats soulignent l'importance d'évaluer les modèles de langage sur plusieurs axes — perplexité, benchmarks et efficacité à l'inférence — et d'utiliser des données d'entraînement diversifiées et non répétées.

7. Remerciements

Le code de toutes les expériences, les poids des modèles et les scripts d'évaluation sont disponibles publiquement :

github.com/s3basti3nDev/LARA

Ce travail a été conduit avec l'assistance de Claude (claude.ai/code, Anthropic), utilisé comme assistant de codage et de rédaction tout au long du projet. L'ensemble des décisions scientifiques, de la conception expérimentale et des conclusions sont de l'auteur.

8. Références

  1. [1] Ye, T. et al. (2025). Differential Transformer. ICLR 2025. arxiv:2410.05258
  2. [2] DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. arxiv:2412.19437
  3. [3] Moyle, J. et al. (2025). Mixture of Recursions. NeurIPS 2025. arxiv:2507.10524
  4. [4] Geiping, J. et al. (2025). Scaling up Test-Time Compute with Latent Consistency Models. ICLR 2026. arxiv:2502.05171
  5. [5] Hao, S. et al. (2024). Training Large Language Models to Reason in a Continuous Latent Space. Meta FAIR. arxiv:2412.06769
  6. [6] Behrouz, A. et al. (2025). Titans: Learning to Memorize at Test Time. Google. arxiv:2501.00663
  7. [7] Anonymous. (2026). DREAMER: Depth Recurrence with Expert Attention for Efficient Reasoning. arxiv:2601.21582
  8. [8] Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arxiv:2104.09864
  9. [9] Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. JMLR. (C4)
  10. [10] Penedo, G. et al. (2024). The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale. HuggingFace.
  11. [11] Biderman, S. et al. (2023). Pythia: A Suite for Analyzing Large Language Models. ICML 2023.
  12. [12] Radford, A. et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI.
  13. [13] Loshchilov, I. & Hutter, F. (2019). Decoupled Weight Decay Regularization. ICLR 2019.
  14. [14] Muennighoff, N. et al. (2023). Scaling Data-Constrained Language Models. NeurIPS 2023.
  15. [15] Zellers, R. et al. (2019). HellaSwag. ACL 2019.
  16. [16] Clark, P. et al. (2018). Think you have Solved Question Answering? Try ARC. arxiv:1803.05457
  17. [17] Paperno, D. et al. (2016). The LAMBADA Dataset. ACL 2016.