<aside> 📌 서비스 소개
</aside>
본 서비스는 한국언론진흥재단의 2023년도 디지털 미디어 서비스 개발 사업의 지원을 받아 제작되었습니다
SBS가 기획하고 지식컨텐츠 스타트업 언더스코어가 개발한 정치 이슈 여론 정보 서비스인 Poliscore는 다음 세 가지 페이지로 구성되어 있습니다
여론조사 (Approval Ratings)
동일한 날짜에 진행된 여론조사에도 어떤 후보·정당의 지지율이 더 높은지에 대해 서로 다른 결과가 보고되고는 합니다. 해당 페이지에서는 상태공간모형(SSM, State Space Model)을 기반으로 모든 여론조사 데이터를 종합하는 통합지표를 제공합니다.
뉴스·댓글 지표 (Online Popularity Index)
국내 주요 정치인들에 대해 최근 90일 간의 언론 보도 비율, 온라인 포털 댓글 패널의 정치인 뉴스별 댓글 작성률 및 악플 비율 등의 시계열 정보를 확인하실 수 있습니다. 한 번에 최대 두 명의 정치인의 뉴스·댓글 지표를 비교 가능합니다.
챗봇 (Poliscore Chat)
OpenAI GPT4를 기반으로 검색증강생성(RAG, Retrieval Augmented Generation) 기술을 활용해 개발한 챗봇입니다. 최근 48시간 동안의 정치 뉴스를 바탕으로, 국내 주요 정치인들 관련 이슈를 개별적으로 질문할 수 있습니다.
서비스 관련 문의
<aside> 📊 여론조사 모델링 (Approval Ratings)
</aside>
현재 국내에는 30개 이상의 조사업체들이 전국 단위 대선 후보 여론조사를 진행하고 있습니다. 다만 조사 방식, 가상번호 사용 여부, 샘플링 방식 등에 따라 동일한 날짜에 진행한 조사에서도 서로 다른 결과가 보고되고는 합니다.
서로 다른 여론조사 결과를 취합하는 가장 단순한 방식은 **단순 평균(simple average)**입니다. 그러나 이는 다음의 문제에 효과적으로 답하지 못합니다.
이에 저희 언더스코어는 **상태공간모형(State Space Model, SSM) 혹은 칼만필터(Kalman Filter)**라는 기법을 활용하여 여론조사 정보들을 취합 중입니다.
1960년에 처음 발표된 칼만필터는 측정하려는 대상과 관련해 확률적인 오차가 포함되고, 특정 시점에서의 상태가 이전 시점과 관계가 있는 상황에서 통계적인 잡음(noise)에 흔들리지 않고 현재의 상태를 추정하기 위해 도입된 기법입니다.
가령, 우주에 내보내는 로켓의 엔진 온도를 실시간 추정하고자 할 때, 우리는 높은 엔진 온도로 인해 이를 직접 측정할 수 없습니다. 센서가 녹아내리기 때문이죠. 결국 센서는 엔진 외부 표면에 부착되고, 우리는 이러한 오차(error)를 감안해서 실시간으로 직접 관찰 가능하지는 않은(unobservable) 정보를 실시간으로 추정해야 합니다. 이 때 사용되는 기법이 칼만필터입니다.
여론조사 역시 이와 유사합니다. 여론조사의 참값(true value)을 알 수 없다고 했을 때, 만약 서로 다른 조사 결과들의 중간 어딘가에 그 값이 위치한다고 가정한다면, 우리는 이를 간접적으로 추정해 볼 수 있습니다.
언더스코어의 상태공간모형이 추정에 사용하는 변수는 다음과 같습니다.
물론 저희의 여론조사 통합지표 역시 방법론적인 한계 및 해석 시 유의사항들이 있습니다.
본 여론조사 통합지표 서비스에 사용된 방법론을 보다 자세히 이해하거나 기술적으로 구현하기 위해서는 아래의 자료들을 참고해보실 수 있습니다.
Bayesian state space estimation in Python via Metropolis-Hastings | Chad Fulton
<aside> 🌐 뉴스·댓글 지표 (Online Popularity Index)
</aside>