arxivMay 16bullish

Beyond What to Select: A Plug-and-play Oscillatory Data-Volume Scheduling for Efficient Model Training

arXiv:2605.14773v1 Announce Type: cross Abstract: Data selection accelerates training by identifying representative training data while preserving model performance. However, existing methods mainly focus on designing sample-importance criteria, i.e., deciding what to select, while typically fixing

#optimization #machine-learning #efficiency Read on arxiv →

arxivApr 6

Early-Warning Signals of Grokking via Loss-Landscape Geometry

arXiv:2602.16967v3 Announce Type: replace Abstract: Grokking -- the abrupt transition from memorization to generalization after prolonged training -- has been linked to confinement on low-dimensional execution manifolds in modular arithmetic. Whether this mechanism extends beyond arithmetic remains

TR1 model #machine-learning #generalization #arithmetic Read on arxiv →

arxivApr 6

Low-Dimensional and Transversely Curved Optimization Dynamics in Grokking

arXiv:2602.16746v3 Announce Type: replace Abstract: Grokking -- the delayed transition from memorization to generalization in small algorithmic tasks -- remains poorly understood. We present a geometric analysis of optimization dynamics in transformers trained on modular arithmetic. PCA of attention

TR1 model #machine-learning #optimization #generalization Read on arxiv →

arxivApr 3

Semantic Interaction Information mediates compositional generalization in latent space

arXiv:2603.27134v2 Announce Type: replace Abstract: Are there still barriers to generalization once all relevant variables are known? We address this question via a framework that casts compositional generalization as a variational inference problem over latent variables with parametric interactions

REECFU4 models · +1 #machine learning #generalization #reinforcement learning Read on arxiv →

Beyond What to Select: A Plug-and-play Oscillatory Data-Volume Scheduling for Efficient Model Training

Out of Spuriousity: Improving Robustness to Spurious Correlations without Group Annotations

Early-Warning Signals of Grokking via Loss-Landscape Geometry

Low-Dimensional and Transversely Curved Optimization Dynamics in Grokking

Semantic Interaction Information mediates compositional generalization in latent space