- 제목에서 확인할 수 있듯 multitask learning을 이용한 Ranking 시스템에 관련된 내용이 주내용이다
Abstract
- 많은 ranking objective 즉 ranking에서 여러가지 문제를 한번에 풀고싶은 문제와 selection bias를 제거하는 문제를 풀기위한 구조를 고안했다
- multi objective는 MMoE 구조를 사용하여 풀었고 selection bias는 Wide&Deep 모델을 차용하여 해결하였다
연관 논문 간략 설명
Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts(MMOE)
Abstract
- recommendation분야 DNN에서도 multitask learning을 많이 사용하고 있습니다
- 하지만 이런 multitask learning이 모든 task에서 잘 동작하지는 않는다(Bert 기반으로 multitask를 풀때 마지막 head는 특정 task에 맞춰서 layer를 구성해줘야 하는 것과 같은 내용 GPT의 경우 많은 양의 데이터를 language model fewshot learning으로 이 문제를 풀려고 하고 있음)
- 이런 multitask learning에서 잘 동작할 수 있는 MMoE 구조를 만들었고 이 내용을 설명하려는 논문입니다
Introduction
- 기존의 multitask learning은 task의 특성과 data 분포를 측정해서 문제를 풀려고 했습니다
- 하지만 production에서 보면 모든 task들의 data 분포와 특성을 측정하는건 사실상 불가능 합니다
- 사람의 튜닝이 불필요하게 동작하는 여러가지 기술들도 나와있지만 이건 추가적인 parameter들이 많이 들어간다 이미 큰 parameter를 갖고있는 recommendation에 추가적인 resource는 부담입니다
https://media.oss.navercorp.com/user/16388/files/bfda0300-0bc9-11eb-892a-11e0a8e6f31a
- 위 그림 (b)부터 moe의 구조입니다 여러개의 feed forward network expert를 두고, gate layer에서 특정 task에 필요한 expert의 결과값을 조합해서 사용하는 구조입니다
- (b)와 (c)의 가장 큰 차이점은 gate의 수이며 (c)는 task 수만큼 gate를 두는 구조입니다