<aside> 📌 Task : 사전 Q&A 3가지 (발표회 사용 O)

</aside>

  1. 머신러닝 모델 설명에서 정확도가 98% 가까이 육박하는데 과적합인지 아닌지 확인해보셨을까요?

만약 과적합 위험이 있었다면 어떤 방식으로 보완하셨는지 듣고 싶습니다.

<aside>

[다니엘님 답변]

저희가 설정한 인기도 점수가 단순한 룰이 아니라, 머신러닝 기준에서도 잘 맞는 기준인지 확인해보고자 검증용으로 모델을 학습시켜 봤습니다.

그 결과, 인기도 점수의 주요 구성 요소인 리뷰, 수익, 방문자 수를 feature로 사용했을 때 약 98%의 정확도가 나와, 이 기준이 내부적으로 일관성 있게 잘 작동함을 확인했습니다.

단, 이는 우리가 만든 기준을 되짚어보는 모델이기 때문에 과도하게 일반화된 의미는 아닙니다.


[띠니 답변]

“모델의 성능을 과하게 믿지 않기 위해, 전체 데이터를 학습용과 검증용으로 70:30으로 나누어 평가했습니다. 학습 정확도는 98.5%였고, 검증 정확도는 97.8%로 차이가 1% 이하였기 때문에 일반적으로 과적합 우려가 낮다고 판단했습니다. 게다가 5-fold 교차검증을 수행했을 때도 평균 정확도가 97.6%±0.5%로 안정적으로 수렴해, 특정 학습 데이터에 과도하게 최적화된 것은 아니라고 결론지었습니다

</aside>

  1. 분류 모델 적용 후 feature importance만으로는 해당 피처가 긍정적·부정적 영향을 미치는지 알기 어려운 것으로 알고 있습니다. 이 한계를 어떻게 보완하시고, 각 피처의 방향성까지 확인하셨는지 방법을 공유 부탁드립니다.

<aside>

텍스트나 평점 리뷰가 따로 없어서 우리가 인기도 기준을 새롭게 설정한 부분에서 이런 질문이 나온 것 같은데 질문하신 분 맞나요?

저희는 악플 / 선플을 알 수 있는 방법이 없어 리뷰 수 자체가 높으면 인기가 많은 것이라고 간주했습니다.

그 이유는 리뷰를 남겼다는 것 자체가 방문을 했다는 의미이고, 만약 부정적인 의견을 남겼다고 한다면 악플도 관심이라는 생각으로 이렇게 방향을 설정했습니다.

전제: 리뷰 수 많으면 관심 & 방문 ⬆️

인기 숙소일수록 평균 리뷰 수 많음

단순 검증임 피피티 읽으세여

</aside>

  1. 정답 레이블 생성 시 ‘최근 리뷰 날짜’에 40%의 가중치를 부여하신 근거가 궁금합니다.최근 리뷰 작성 여부가 인기 숙소 선정에 40% 수준의 영향력을 가지는 것이 합리적이라고 판단하신 이유를 설명해 주실 수 있을까요?

<aside>


review_year

2011 7

2012 25

2013 48

2014 199

2015 1393

2016 2707

2017 3204

2018 6048

2019 25202

</aside>


(발표회 사용 X)

  1. 11페이지 Feature Importance를 구하기 위한 인기/비인기 숙소 머신 러닝 진행 시에 학습 정확도와 테스트 정확도에는 크게 문제가 없었는지 궁금합니다. 만일 두 값 간에 차이가 크셨을 경우 어떤 기준으로 테스트가 합당하다고 판단하여 진행하셨는지 배우고 싶습니다.

  2. 도심, 비도심, 외곽 지역으로 비교해주셨는데 구분 기준이 궁금합니다.

3. 도심, 비도심, 외곽 지역으로 비교하게 되면 외곽 지역이 다른 지역의 도심에 가까울 가능성이 있다고 생각했습니다. 그럼 외곽이 아닐 수도 있는데 이 부분은 어떻게 해결하셨나요?

?????????엥???????????? 열받네…?