Netflix Artwork Personalization

collaborative filtering의 아쉬운 점 추천 : 기존에 선택된 이미지들만 추천이 된다.

→ 이를 bandit을 통해 해결해보자

Bandit setting의 요소들

Environment : 넷플릭스 홈페이지

Learner(policy) : artwork selector

Action : learner의 선택으로 display한 image

Reward : action을 통해 얻어진 member의 반응(engagement)(여기서는 click or non-click)

Common strategy

(1- ε) 확률로 Greedy한 Arm을 추천하고 ε 확률로 Random한 Arm을 추천해주는 방식

각 Arm을 선택한 횟수 또는 반응률 등을 Reward로 가정했을 때, 해당 Reward의 Upper Confidence Bound를 계산하여 Uncertainty Weight로 활용하는 알고리즘

과거에 관측된 데이터를 이용하여 Reward 분포를 추정한 뒤, 해당 분포를 통해 가장 높은 Reward를 줄 Arm을, 높은 확률로 선택해 주는 알고리즘

Q. 톰슨 샘플링에서 베타분포, 베르누이분포가 나오게된 배경과 숫자들의 의미

Reward는 arm의 결과에 따라 click or non-click(0,1)의 결과를 갖게 된다
이는 베르누이 시행(확률론에서 임의의 결과가 '성공' 또는 '실패'의 두 가지 중 하나인 실험)이라 보고 Reward가 베르누이 분포를 따른다고 가정합니다.
또한 여기서 베르누이 분포의 parameter인 p(성공일 확률)의 사전분포를 베타분포를 따른다고 가정합니다.

Q. 여기서 p의 사전분포를 베타분포로 지정한 이유는?

모수는 다르지만, 사전 분포와 사후 분포의 형태를 같게 하는 사전 분포

사전분포가 베타분포을 따르고 가능도 함수가 베르누이 분포를 따를 때 사후분포는 베타분포를 따른다.

이는 사후분포 계산이 쉬워지기 때문에 많이 이용한다고 한다.

베타분포는 두개의 양수 변수로 표현할 수 있는 확률 분포 → 성공횟수와 실패 횟수 두개의 변수로 잡을 수 있음

또한, 베타분포의 확률변수가 0과 1사이에서 정의되기 때문에 p(성공일 확률)을 모델링 하는데 적합하다고 볼 수 있음

Q. 왜 성공 횟수를 α, 실패 횟수를 β라고 할까?

베타 분포가 α값이 크면 1에 가까울 확률이 높아지고 β값이 크면 0에 가까운 확률이 높은 분포이기 때문에 이런 특성을 활용해 각각을 배정했다고 본다.