LARA : Améliorations composables de transformeurs

1. Introduction

Le paysage des améliorations de transformeurs s'est étendu rapidement, avec des dizaines d'innovations architecturales proposées ces dernières années. Cependant, la plupart sont évaluées isolément dans des conditions d'entraînement variables, rendant les comparaisons directes difficiles. Les praticiens font face à un défi combinatoire : quel sous-ensemble d'améliorations adopter, et se composent-elles de manière additive ?

Nous répondons à cela via LARA, un framework conçu pour l'ablation compositionnelle : chaque amélioration est implémentée comme un drapeau de bascule dans une configuration de modèle partagée, entraînée dans des conditions identiques (jeu de données, optimiseur, taille de batch, planning de taux d'apprentissage). Cette conception nous permet d'attribuer les différences de performance directement aux choix architecturaux plutôt qu'aux artefacts d'entraînement.

Contributions

1

Implémentation unifiée de huit améliorations de transformeurs comme modules composables.

2

Ablations contrôlées sur neuf expériences (A–I) à 5 000 itérations d'entraînement, isolant la contribution de chaque technique.

3

Expérience à long horizon (50 000 itérations) : notre meilleure architecture atteint PPL 13,14 sur C4 avec 124,6M de paramètres et 500M tokens d'entraînement.

4

Caractérisation empirique de l'effet de la composition du corpus sur la relation PPL–benchmark sous entraînement prolongé.

5

Compression 16× du cache KV (MLA) sans coût de perplexité mesuré.

2. Contexte et travaux connexes

Differential Attention

Ye et al. (2025) proposent de remplacer l'attention softmax standard par la différence de deux cartes d'attention, supprimant le bruit d'attention. Nous implémentons leur formulation au sein d'un bloc transformer standard.

Multi-Head Latent Attention (MLA)

DeepSeek-AI (2024) introduit MLA, qui projette les clés et valeurs dans un espace latent de faible dimension avant la mise en cache, atteignant une compression 16× du cache KV tout en maintenant la qualité du modèle.

Mixture of Recursions (MoR)

Moyle et al. (2025) proposent de router les tokens à travers un nombre variable de couches de transformeurs, permettant un calcul adaptatif. Nous utilisons leur formulation avec partage de poids.

Recurrent Depth Scaling

Geiping et al. (2025) montrent que le partage des poids d'un bloc transformer à travers les étapes de récursion permet un passage à l'échelle en profondeur au moment de l'inférence : un modèle entraîné à profondeur k peut être évalué à profondeur 2k ou 4k pour une meilleure qualité.

Coconut Latent Reasoning

Hao et al. (2024) introduisent Coconut, qui remplace les tokens explicites de chaîne de pensée par des vecteurs de « pensée » latents continus injectés dans le flux d'entrée via un curriculum progressif.

Titans Neural Memory

Behrouz et al. (2025) proposent Titans, un module de mémoire associative entraîné conjointement avec le modèle principal pour fournir un contexte longue portée au-delà de la fenêtre de contexte.

Rotary Position Embeddings (RoPE)

Su et al. (2021) proposent RoPE, qui encode la position via une rotation dans le produit requête-clé, remplaçant les embeddings positionnels absolus. RoPE est aujourd'hui l'encodage positionnel dominant dans les grands modèles de langage.

Depth Cross-Attention (DCA)

Nous introduisons DCA, une nouvelle brique inspirée de DREAMER (2025), qui ajoute une cross-attention entre les états cachés de la couche courante et un embedding de profondeur appris. Cela fournit au modèle un signal explicite sur sa position dans la pile computationnelle. La porte d'attention est initialisée proche de zéro et monte progressivement pendant l'entraînement.

3. L'architecture LARA

3.1 Conception unifiée du modèle

LARA étend un transformeur standard de type GPT avec des modules optionnels contrôlés par des drapeaux booléens dans un ModelConfig partagé. Le modèle de référence utilise l'attention multi-têtes standard avec des embeddings positionnels absolus. Chaque brique remplace ou augmente un composant :

Attention : DiffAttn ∪ MLA (mutuellement exclusifs par couche)
Encodage positionnel : Embeddings absolus → RoPE
Profondeur : Passage avant standard → MoR ∪ ProfondeurRécurrente
Mémoire : Module Titans (optionnel, préposé à la séquence)
Raisonnement : Porte Coconut (optionnelle, appliquée aux embeddings d'entrée)
Inter-couches : Porte DCA (optionnelle, appliquée à chaque bloc)

3.2 Multi-Head Latent Attention

MLA décompose la projection clé-valeur en une projection descendante W^DKV ∈ ℝ^{d_c × d} et des projections montantes W^UK, W^UV ∈ ℝ^{d × d_c}, où d_c ≪ d. À l'inférence, seul le latent compressé c_t^KV = W^DKV x_t ∈ ℝ^d_c est mis en cache par token, atteignant un ratio de compression d/d_c. Dans notre configuration, d = 1 024 et d_c = 64, donnant une réduction 16× du cache KV.

3.3 Depth Cross-Attention (DCA)

DCA augmente chaque bloc transformer ℓ avec un terme de cross-attention à portail :

h'_ℓ = h_ℓ + σ(g_ℓ) · CrossAttn(h_ℓ, e_ℓ, e_ℓ)

où e_ℓ ∈ ℝ^d est un embedding de profondeur appris et g_ℓ est initialisé à −4,6 (sigmoid ≈ 0,01). Cela garantit que la DCA est quasi inactive à l'initialisation et monte organiquement pendant l'entraînement.

3.4 Configurations expérimentales

ID	Nom	Briques actives	Notes
A	baseline	Aucune	GPT standard
B	diff_attn	DiffAttn	—
C	mor	DiffAttn + MoR	—
D	coconut	DiffAttn + MoR + Coconut	—
E	lara_full	Toutes les briques Phase-1	—
F	lara_v2	MLA + ProfRéc + Titans	16× KV
G	lara_v2_full	F + Coconut	Différé
H	lara_v2_dca ★	F + DCA	16× KV
I	lara_v2_rope Meilleure	H + RoPE	16× KV

Tableau 1. Configurations expérimentales. ★ = contribution DCA.

4. Expériences

4.1 Protocole

Matériel. Toutes les expériences s'exécutent sur un GPU NVIDIA L4 (23 Go VRAM) via Lightning.ai.

Protocole d'entraînement. Sauf indication contraire, chaque modèle est entraîné pendant 5 000 itérations avec une taille de batch de 8 et une accumulation de gradient de 16 étapes (batch effectif ≈ 8 000 tokens × 512 ≈ 4M tokens par étape, ≈ 330M tokens au total). Nous utilisons AdamW avec β₁ = 0,9, β₂ = 0,95, weight decay 0,1, et un planning de taux d'apprentissage cosinus de 3×10⁻⁴ à 3×10⁻⁵ avec 500 étapes de réchauffement. Tous les modèles utilisent d = 1 024, n_layer = 6, n_head = 8 et une taille de bloc de 512.

Jeux de données. Les ablations courtes (5 000 iters) utilisent FineWeb-Edu, un sous-ensemble éducatif de haute qualité de CommonCrawl. Les exécutions longues (50 000 iters) comparent FineWeb-Edu et C4 pour étudier les effets du corpus.

Évaluation. La perplexité est mesurée sur un ensemble de validation de 10M tokens hors-distribution. Les benchmarks en aval (HellaSwag, ARC-Easy, LAMBADA) sont évalués en 0-shot via lm-evaluation-harness.

4.2 Résultats d'ablation

#	Expérience	Briques	Params	PPL↓	Tok/s↑	KV	Iters
A	baseline	—	203M	~52*	700	1×	5k
B	diff_attn	DiffAttn	127,5M	70,56	1 231	1×	5k
C	mor	DiffAttn+MoR	127,5M	74,52	433	1×	5k
D	coconut	+Coconut	128,5M	~90*	357	1×	5k
E	lara_full	Phase-1 complète	135,9M	~80*	334	1×	5k
F	lara_v2	MLA+ProfRéc+Titans	190M	~58*	395	16×	5k
H	lara_v2_dca ★	+DCA	125,1M	60,84	486	16×	5k
I	lara_v2_rope	+RoPE	124,6M	~52*	472	16×	5k
I	lara_v2_rope (50k, FW)	+RoPE	124,6M	14,66	472	16×	50k
I	lara_v2_rope (50k, C4) Meilleure	+RoPE	124,6M	13,14	440	16×	50k

Tableau 2. Résultats d'ablation à 5 000 et 50 000 itérations.

* = point de contrôle perdu, PPL estimé à partir du val_loss enregistré.

Observations Phase 1. DiffAttn seul (B, PPL 70,56) obtient le meilleur résultat sur une seule brique. L'ajout de MoR (C) augmente légèrement le PPL, suggérant qu'à 5 000 itérations, le surcoût du routage l'emporte sur les bénéfices. Coconut (D) sous-performe à court terme, conformément à sa conception par curriculum nécessitant un entraînement prolongé. La pile complète Phase-1 (E) ne présente pas de synergie additive à iso-itérations, motivant la refonte Phase 2.

Observations Phase 2. Le passage à MLA (compression KV 16×) avec Profondeur Récurrente et Titans (F) atteint ~58 PPL tout en réduisant drastiquement la mémoire du cache KV. DCA (H) améliore le PPL à 60,84 avec un léger gain de débit. RoPE (I) égale le PPL de référence (~52) avec une compression 16×, confirmant que MLA, DCA et RoPE se composent sans interférence.

Entraînement prolongé. L'entraînement de lara_v2_rope sur 50 000 itérations sur FineWeb-Edu atteint PPL 14,66. Le passage au corpus C4 améliore encore le résultat jusqu'à PPL 13,14, surpassant Pythia-160M en perplexité hors-distribution malgré seulement 500M tokens d'entraînement contre 300B pour Pythia.

4.3 Benchmarks en aval

Modèle	Corpus (iters)	Params	HellaSwag	ARC-Easy	LAMBADA
Pythia-160M †	300B tokens	160M	30,18 %	39,81 %	32,89 %
GPT-2 †	40B tokens	117M	31,08 %	39,60 %	32,10 %
diff_attn	FW-Edu (5k)	127,5M	26,47 %	35,27 %	8,21 %
mor	FW-Edu (5k)	127,5M	26,62 %	34,89 %	7,67 %
lara_v2_dca ★	FW-Edu (5k)	125,1M	26,30 %	36,78 %	9,33 %
lara_v2_rope	FW-Edu (5k)	124,6M	26,45 %	34,55 %	7,63 %
lara_v2_rope	FW-Edu (50k)	124,6M	25,45 %	29,67 %	1,59 %
lara_v2_rope	C4 (50k)	124,6M	26,34 %	26,73 %	4,50 %

Tableau 3. Scores des benchmarks en 0-shot. † = entraîné sur des budgets de tokens bien supérieurs.

5. Analyse

5.1 Divergence PPL–benchmark sous entraînement prolongé

Un résultat notable est que la perplexité et la précision des benchmarks en aval divergent significativement sous un entraînement prolongé sur un budget de tokens fixe. L'exécution FineWeb-Edu à 50k iters atteint PPL 14,66 (une amélioration 3,5× par rapport à 5k) mais perd 5–6 points sur ARC-Easy et 6 points sur LAMBADA par rapport à l'exécution à 5k. L'exécution C4 à 50k iters récupère partiellement LAMBADA (+2,9 points) mais dégrade encore ARC-Easy.

Nous attribuons cela au surapprentissage de la distribution : avec seulement 500M tokens uniques, 50 000 itérations correspondent à environ 30 passages sur les mêmes données. Le modèle mémorise les statistiques de surface de la distribution d'entraînement, améliorant le PPL hors-distribution sur le même domaine tout en perdant la généralisation inter-domaines. Ce résultat est cohérent avec Muennighoff et al. (2023), qui montrent que les données répétées sont néfastes au-delà d'un petit nombre d'époques.

5.2 Effets de la composition du corpus

La comparaison des exécutions à 50k sur FineWeb-Edu et C4 révèle des effets spécifiques au corpus :

LAMBADA bénéficie de C4 (+2,9 points) : la diversité du texte web de C4 représente mieux les continuations narratives naturelles.
ARC-Easy bénéficie de FineWeb-Edu (+3 points) : le corpus éducatif corrèle directement avec les questions scientifiques de niveau scolaire.
HellaSwag est insensible au choix du corpus (~26 % dans les deux cas).

Cela suggère que l'alignement du domaine du corpus avec la distribution d'évaluation cible est un levier plus puissant que la durée d'entraînement pour les performances sur les benchmarks.

5.3 Compression du cache KV

La compression 16× du cache KV de MLA (de d = 1 024 à d_c = 64) est obtenue sans coût de perplexité : lara_v2_rope à 5k iters (~52 PPL, 16× KV) égale la référence (~52 PPL, 1× KV) à nombre de paramètres égal. Cette compression permet des fenêtres de contexte significativement plus longues à mémoire GPU fixe, un avantage pratique crucial pour l'inférence.

5.4 Analyse du débit

DiffAttn (B) atteint le débit le plus élevé (1 231 tok/s) grâce à son efficacité en paramètres. Les modèles Phase 2 (F–I) échangent une partie du débit (440–486 tok/s) contre la compression KV et une meilleure PPL à grande échelle. La porte DCA ajoute un surcoût minimal, cohérent avec son initialisation proche de zéro.

6. Conclusion

Nous avons présenté LARA, un framework d'ablation composable des améliorations de transformeurs. Nos expériences montrent que la combinaison MLA, Profondeur Récurrente, Titans, DCA et RoPE atteint la meilleure perplexité (13,14 sur C4) parmi toutes les configurations testées, avec une compression 16× du cache KV et 124,6M de paramètres entraînés sur 500M tokens. Nous identifions également une divergence systématique PPL–benchmark sous entraînement à données répétées, et un fort effet de domaine du corpus sur les performances spécifiques aux tâches.

Ces résultats soulignent l'importance d'évaluer les modèles de langage sur plusieurs axes — perplexité, benchmarks et efficacité à l'inférence — et d'utiliser des données d'entraînement diversifiées et non répétées.

7. Remerciements

Le code de toutes les expériences, les poids des modèles et les scripts d'évaluation sont disponibles publiquement :

github.com/s3basti3nDev/LARA

Ce travail a été conduit avec l'assistance de Claude (claude.ai/code, Anthropic), utilisé comme assistant de codage et de rédaction tout au long du projet. L'ensemble des décisions scientifiques, de la conception expérimentale et des conclusions sont de l'auteur.

8. Références

[1] Ye, T. et al. (2025). Differential Transformer. ICLR 2025. arxiv:2410.05258
[2] DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. arxiv:2412.19437
[3] Moyle, J. et al. (2025). Mixture of Recursions. NeurIPS 2025. arxiv:2507.10524
[4] Geiping, J. et al. (2025). Scaling up Test-Time Compute with Latent Consistency Models. ICLR 2026. arxiv:2502.05171
[5] Hao, S. et al. (2024). Training Large Language Models to Reason in a Continuous Latent Space. Meta FAIR. arxiv:2412.06769
[6] Behrouz, A. et al. (2025). Titans: Learning to Memorize at Test Time. Google. arxiv:2501.00663
[7] Anonymous. (2026). DREAMER: Depth Recurrence with Expert Attention for Efficient Reasoning. arxiv:2601.21582
[8] Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arxiv:2104.09864
[9] Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. JMLR. (C4)
[10] Penedo, G. et al. (2024). The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale. HuggingFace.
[11] Biderman, S. et al. (2023). Pythia: A Suite for Analyzing Large Language Models. ICML 2023.
[12] Radford, A. et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI.
[13] Loshchilov, I. & Hutter, F. (2019). Decoupled Weight Decay Regularization. ICLR 2019.
[14] Muennighoff, N. et al. (2023). Scaling Data-Constrained Language Models. NeurIPS 2023.
[15] Zellers, R. et al. (2019). HellaSwag. ACL 2019.
[16] Clark, P. et al. (2018). Think you have Solved Question Answering? Try ARC. arxiv:1803.05457
[17] Paperno, D. et al. (2016). The LAMBADA Dataset. ACL 2016.

LARA : Améliorations composables de transformeurs
via une ablation systématique

Résumé

Sommaire

1. Introduction

Contributions

3. L'architecture LARA

3.1 Conception unifiée du modèle

3.2 Multi-Head Latent Attention

3.3 Depth Cross-Attention (DCA)

3.4 Configurations expérimentales

4. Expériences

4.1 Protocole

4.2 Résultats d'ablation

4.3 Benchmarks en aval

5. Analyse

5.1 Divergence PPL–benchmark sous entraînement prolongé

5.2 Effets de la composition du corpus

5.3 Compression du cache KV

5.4 Analyse du débit

6. Conclusion

7. Remerciements

8. Références

LARA : Améliorations composables de transformeursvia une ablation systématique

Résumé

Sommaire

1. Introduction

Contributions

2. Contexte et travaux connexes

Differential Attention

Multi-Head Latent Attention (MLA)

Mixture of Recursions (MoR)

Recurrent Depth Scaling

Coconut Latent Reasoning

Titans Neural Memory

Rotary Position Embeddings (RoPE)

Depth Cross-Attention (DCA)

3. L'architecture LARA

3.1 Conception unifiée du modèle

3.2 Multi-Head Latent Attention

3.3 Depth Cross-Attention (DCA)

3.4 Configurations expérimentales

4. Expériences

4.1 Protocole

4.2 Résultats d'ablation

4.3 Benchmarks en aval

5. Analyse

5.1 Divergence PPL–benchmark sous entraînement prolongé

5.2 Effets de la composition du corpus

5.3 Compression du cache KV

5.4 Analyse du débit

6. Conclusion

7. Remerciements

8. Références

LARA : Améliorations composables de transformeurs
via une ablation systématique