Dissociating Decodability and Causal Use in Bracket-Sequence Transformers

Source

arxiv.orgfull article ↗

Read on arxiv

Publisher summary· verbatim

arXiv:2604.22128v1 Announce Type: new Abstract: When trained on tasks requiring an understanding of hierarchical structure, transformers have been found to represent this hierarchy in distinct ways: in the geometry of the residual stream, and in stack-like attention patterns maintaining a last-in, f

Discussion

No replies yet. Be first.

Dissociating Decodability and Causal Use in Bracket-Sequence Transformers

Related coverage

Dissociating Decodability and Causal Use in Bracket-Sequence Transformers

Related coverage