Off-Policy Learning | Notion

tutorial

for Search, Recommendation and Ad Placement

counterfactual risk minimization

Counterfactual Risk Minimization: Learning from Logged Bandit Feedback

slates eitimator

Off-policy evaluation for slate recommendation