질문 답변 | Notion

<aside> 📌 Task : 사전 Q&A 3가지 (발표회 사용 O)

</aside>

머신러닝 모델 설명에서 정확도가 98% 가까이 육박하는데 과적합인지 아닌지 확인해보셨을까요?

만약 과적합 위험이 있었다면 어떤 방식으로 보완하셨는지 듣고 싶습니다.

<aside>

[다니엘님 답변]

저희가 설정한 인기도 점수가 단순한 룰이 아니라, 머신러닝 기준에서도 잘 맞는 기준인지 확인해보고자 검증용으로 모델을 학습시켜 봤습니다.

그 결과, 인기도 점수의 주요 구성 요소인 리뷰, 수익, 방문자 수를 feature로 사용했을 때 약 98%의 정확도가 나와, 이 기준이 내부적으로 일관성 있게 잘 작동함을 확인했습니다.

단, 이는 우리가 만든 기준을 되짚어보는 모델이기 때문에 과도하게 일반화된 의미는 아닙니다.

[띠니 답변]

“모델의 성능을 과하게 믿지 않기 위해, 전체 데이터를 학습용과 검증용으로 70:30으로 나누어 평가했습니다. 학습 정확도는 98.5%였고, 검증 정확도는 97.8%로 차이가 1% 이하였기 때문에 일반적으로 과적합 우려가 낮다고 판단했습니다. 게다가 5-fold 교차검증을 수행했을 때도 평균 정확도가 97.6%±0.5%로 안정적으로 수렴해, 특정 학습 데이터에 과도하게 최적화된 것은 아니라고 결론지었습니다

</aside>

분류 모델 적용 후 feature importance만으로는 해당 피처가 긍정적·부정적 영향을 미치는지 알기 어려운 것으로 알고 있습니다. 이 한계를 어떻게 보완하시고, 각 피처의 방향성까지 확인하셨는지 방법을 공유 부탁드립니다.

<aside>

텍스트나 평점 리뷰가 따로 없어서 우리가 인기도 기준을 새롭게 설정한 부분에서 이런 질문이 나온 것 같은데 질문하신 분 맞나요?

저희는 악플 / 선플을 알 수 있는 방법이 없어 리뷰 수 자체가 높으면 인기가 많은 것이라고 간주했습니다.

그 이유는 리뷰를 남겼다는 것 자체가 방문을 했다는 의미이고, 만약 부정적인 의견을 남겼다고 한다면 악플도 관심이라는 생각으로 이렇게 방향을 설정했습니다.

전제: 리뷰 수 많으면 관심 & 방문 ⬆️

인기 숙소일수록 평균 리뷰 수 많음

단순 검증임 피피티 읽으세여

</aside>

정답 레이블 생성 시 ‘최근 리뷰 날짜’에 40%의 가중치를 부여하신 근거가 궁금합니다.최근 리뷰 작성 여부가 인기 숙소 선정에 40% 수준의 영향력을 가지는 것이 합리적이라고 판단하신 이유를 설명해 주실 수 있을까요?

<aside>

2018년 이전으로 리뷰가 적힌 경우 최근까지 활동하는 숙소라고 판단하기 어려움
2018년 기준으로 운영하는 숙소들을 최근에 운영하는 숙소라고 판단
최근 리뷰가 리뷰 중에 신뢰를 가장 많이 주기 때문에 3컬럼 중 최근 날짜에 리뷰 수와 똑같이 가중치를 40% 주는 게 맞다고 판단
최근 리뷰가 있냐 없냐를 기준으로 다른 컬럼들의 활용도가 달라지기 때문에 더 중요하다고 생각

review_year

2011 7

2012 25

2013 48

2014 199

2015 1393

2016 2707

2017 3204

2018 6048

2019 25202

</aside>

(발표회 사용 X)

11페이지 Feature Importance를 구하기 위한 인기/비인기 숙소 머신 러닝 진행 시에 학습 정확도와 테스트 정확도에는 크게 문제가 없었는지 궁금합니다. 만일 두 값 간에 차이가 크셨을 경우 어떤 기준으로 테스트가 합당하다고 판단하여 진행하셨는지 배우고 싶습니다.
~~도심, 비도심, 외곽 지역으로 비교해주셨는데 구분 기준이 궁금합니다.~~

3. 도심, 비도심, 외곽 지역으로 비교하게 되면 외곽 지역이 다른 지역의 도심에 가까울 가능성이 있다고 생각했습니다. 그럼 외곽이 아닐 수도 있는데 이 부분은 어떻게 해결하셨나요?

?????????엥???????????? 열받네…?