1. Hits ratio

Retriever model로 모든 candidate에 대해 rank를 매긴다음, 이중에서 top K 개를 골랐을 때, 이 안에 정답에 해당하는 positive example이 포함되어 있으면 1점, 아니면 0점을 받고, 그것의 평균을 측정한 것

Graph Neural Networks


2. Hits@1/K

Hits ratio랑 Hits@1/K랑 글자는 비슷해보이지만 상당히 다른 metric이다.

만약 K가 100이라고 한다면, 99개의 랜덤 선택지와 1개의 정답을 섞어서 후보 100개를 만들고, 이 중에서 retriever model 혹은 reranker model이 정답을 top 1으로 고르는 확률(accuracy)을 나타낸다.

Hits@1/all으로 대화 모델의 체감 성능을 평가하기 어려운 이유

정답으로 labeling된 response는 next utterance 하나밖에 없지만, 실제로 자연스러운 대화가 이어질 수 있는 candidate이 무수히 많다. 따라서 꼭 해당 정답이 top1으로 뽑히지 않더라도,

Hits@1/K의 한계

Hits@1/K는 response candidate 들이 너무 sparse하게 분포되어 있으면, 제대로된 체감 성능을 발휘할 수 없게 된다. 즉 랜덤으로 뽑힌 negative candidate이 너무 엉뚱한 발화인 경우, 아주 쉽게 positive를 고를 수는 있지만, 이것이 진짜 실제 상황에서도 과연 문맥에 맞는 적절한 response인지는 알 수 없다.

즉, response candidate의 개수가 절대적으로 부족하면, Hits@1/K 수치 자체는 잘나오더라도, 체감성능에서는 상당히 나쁠 수 있다. 만약 유저가 수집된 데이터를 벗어나는 말을 많이 하고싶어하면, 계속 이상한 응답만 retrieval 되거나, OOD로 판단이 될 것이다.