arxivApril 13, 2026 at 4:00 AM1 min read

BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation

arXiv:2604.09497v1 Announce Type: cross Abstract: Accurate evaluation is central to the large language model (LLM) ecosystem, guiding model selection and downstream adoption across diverse use cases. In practice, however, evaluating generative outputs typically relies on rigid lexical methods to ext

Read original article ↗

No replies yet. Be first.

arxiv6h ago

Advantage-Guided Diffusion for Model-Based Reinforcement Learning

arxiv6h ago

FluidFlow: a flow-matching generative model for fluid dynamics surrogates on unstructured meshes

arxiv6h ago

BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation

Related Articles

Advantage-Guided Diffusion for Model-Based Reinforcement Learning

FluidFlow: a flow-matching generative model for fluid dynamics surrogates on unstructured meshes

HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?