Hubs or Fringes: Pretraining Data Selection via Web Graph Centrality

Source

arxiv.orgfull article ↗

Publisher summary· verbatim

arXiv:2606.11499v1 Announce Type: cross Abstract: The performance of modern language models depends critically on pretraining data composition. Yet existing data selection methods rely on auxiliary classifiers for document scoring or mixture optimization, adding computational overhead and dependence

Stay posted· Newsletter

A 5-min weekly brief — top movers, price watch, story of the week.

Discussion

No replies yet. Be first.

Hubs or Fringes: Pretraining Data Selection via Web Graph Centrality

Related coverage

Hubs or Fringes: Pretraining Data Selection via Web Graph Centrality

Related coverage