Latest submissions

Freshly unearthed preprints from the aardXiv burrow.

aardXiv:2511.00086 6 Nov 2025

AttentiveLayerAdam: Analysis of Orthogonal Constraints in Transformer Optimization

This paper presents an investigation of orthogonalization constraints in transformer optimization through AttentiveLayerAdam, a modified Adam optimizer with layer-specific learning rates and attention weight orthogonali…

View abstract PDF
aardXiv:2511.00085 6 Nov 2025

OrthoAdapt: Practical Gradient Orthogonalization for Transformer Optimization

We present OrthoAdapt, a computationally efficient optimizer that combines adaptive learning rates with partial gradient orthogonalization. Through systematic evaluation on a 134M parameter transformer trained on FineWe…

View abstract PDF
aardXiv:2511.00084 6 Nov 2025

GeoAdam: Geometric Adaptive Momentum for Transformer Optimization

We present GeoAdam, a novel optimizer combining layer-specific adaptation with geometric orthogonalization for transformer language models. On the FineWeb benchmark with a 134M parameter Qwen architecture, GeoAdam achie…

View abstract PDF
aardXiv:2511.00083 6 Nov 2025

Momentum-Aware Layer-wise Adaptive Optimization: \\ A Comprehensive Negative Result Study

We present a detailed empirical investigation of Momentum-Aware Layer-wise Adaptive Optimization (MALAO) for large language models. Despite incorporating recent advances in adaptive optimization, our method consistently…

View abstract PDF
aardXiv:2511.00082 6 Nov 2025

OrthoAdam: Gradient Orthogonalization for Transformer Optimization

We present OrthoAdam, an optimizer that applies singular value decomposition (SVD) to gradients of attention layer parameters in transformers. While building on established adaptive optimization principles, our method d…

View abstract PDF

Latest submissions

AttentiveLayerAdam: Analysis of Orthogonal Constraints in Transformer Optimization

OrthoAdapt: Practical Gradient Orthogonalization for Transformer Optimization

GeoAdam: Geometric Adaptive Momentum for Transformer Optimization

Momentum-Aware Layer-wise Adaptive Optimization: \\ A Comprehensive Negative Result Study

OrthoAdam: Gradient Orthogonalization for Transformer Optimization