00:00:00 / 00:00:00

The mean-field dynamics of transformers

De Philippe Rigollet

Apparaît dans la collection : New challenges in high-dimensional statistics / Statistique mathématique 2025

We develop a mathematical framework that interprets Transformer attention as an interacting particle system and studies its continuum (mean-field) limits. By idealizing attention on the sphere, we connect Transformer dynamics to Wasserstein gradient flows, synchronization models (Kuramoto), and mean-shift clustering. Central to our results is a global clustering phenomenon whereby tokens cluster asymptotically after long metastable states where they are arranged into multiple clusters. We further analyze a tractable equiangular reduction to obtain exact clustering rates, show how commonly used normalization schemes alter contraction speeds, and identify a phase transition for long-context attention. The results highlight both the mechanisms that drive representation collapse and the regimes that preserve expressive, multi-cluster structure in deep attention architectures.

Informations sur la vidéo

Données de citation

  • DOI 10.24350/CIRM.V.20425603
  • Citer cette vidéo Rigollet, Philippe (16/12/2025). The mean-field dynamics of transformers. CIRM. Audiovisual resource. DOI: 10.24350/CIRM.V.20425603
  • URL https://dx.doi.org/10.24350/CIRM.V.20425603

Bibliographie

Dernières questions liées sur MathOverflow

Pour poser une question, votre compte Carmin.tv doit être connecté à mathoverflow

Poser une question sur MathOverflow




Inscrivez-vous

  • Mettez des vidéos en favori
  • Ajoutez des vidéos à regarder plus tard &
    conservez votre historique de consultation
  • Commentez avec la communauté
    scientifique
  • Recevez des notifications de mise à jour
    de vos sujets favoris
Donner son avis