Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns

Source

arxiv.orgfull article ↗

Read on arxiv

Publisher summary· verbatim

arXiv:2606.12629v2 Announce Type: replace-cross Abstract: We show the standard basis of transformer hidden states already provides a training-free, architecture-general feature basis. Individual dimensions encode semantic content via their signs (+/-1) and confidence via their magnitudes, acting as

Stay posted· Newsletter

A 5-min weekly brief — top movers, price watch, story of the week.

Discussion

No replies yet. Be first.

Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns

Related coverage

Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns

Related coverage