Concave Statistical Utility Maximization Bandits via Influence-Function Gradients

Source

arxiv.orgfull article ↗

Publisher summary· verbatim

arXiv:2604.22140v1 Announce Type: cross Abstract: We study stochastic multi-armed bandits in which the objective is a statistical functional of the long-run reward distribution, rather than expected reward alone. Under mild continuity assumptions, we show that the infinite-horizon problem reduces to

Discussion

No replies yet. Be first.

Concave Statistical Utility Maximization Bandits via Influence-Function Gradients

Related coverage

Concave Statistical Utility Maximization Bandits via Influence-Function Gradients

Related coverage