우리 생활에서 흔히 있는 데이터 중 하나가 수치형 데이터이다. 점수, 학점, 등수, 요금, 가격, 환율, 주가와 같은 데이터들이 쏟아지고 있다. 이렇게 하나의 카테고리로 묶을 수 있는, 특정한 제한된 표본의 데이터를 생각해보자. 예를 들어, ‘현재 서울시 집값’이라던가, ‘전국 버스요금’ 과 같은 것이 그것이다. 이러한 데이터들은 너무나도 많아서 단순히 나열하는 것만으로도 우리의 이해를 넘어설 수 있다.

그래서 이전부터 이러한 데이터들을 대표할 수 있는 값을 찾기 시작했다. 이를 대푯값이라고 한다. 그리고 우리 주변에서 가장 손쉽게 볼 수 있는 대푯값이 바로 평균이다.

1. 평균

1) 산술평균

산술평균은 가장 계산하기 손쉽고, 기본적인 위치 추정방법이다. 일반적으로 평균은 모든 데이터들의 총합을 데이터 포인트 갯수로 나눈 것이다. 아래의 공식을 보자. 데이터의 갯수가 n이라고 할 때, 이 데이터의 평균은 다음과 같다.

$$ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} $$

<aside> 💡 여기서 n 은 전통적인 통계학에서는 대문자라면 모집단의 데이터 갯수, 소문자면 모집단에서 추출한 표본의 갯수로 구분한다. 그러나 전통적 통계학이 아닌 현대의 데이터 사이언스에서는 이러한 구분을 중요시하지 않기에 같은 의미로 사용한다.

</aside>

그렇다면 단순히 이렇게 평균을 구하면 모든 문제가 해결될까? 아쉽지만 그렇지 않다. 많은 연구가들이 평균이라는 데이터가 가지고 있는 ‘함정’에 대해 연구하기 시작했고, 그런 위험성을 줄일 수 있도록 수많은 방법으로 다양한 평균값을 구하기 위해 노력했다. 먼저 ‘평균의 함정’에 대해서 살펴보자.

2) 평균의 함정, 이상치

슬픈 이야기지만, 사람은 누구나 죽는다. 그렇다면 사람의 수명은 어느정도 될까? 사람의 자연사 수명을 예측할 수 있을까? 많은 신화와 민담에서 흥미롭게 나온 주제이긴 하지만, 과학적 방법론과 의학이 발달된 지금까지도 사람의 정확한 사망시점은 예측하기 어렵다. 대신에 우리에게는 데이터가 있고 통계가 있다. 특정 기간의 사망자의 사망 시점 나이의 총합에, 사망자 수를 나누면 되지 않을까? 그렇게 해서 ‘평균 수명’을 구하면 끝일까? 아쉽게도 아니다.

‘평균 수명’은 모든 사망요인을 산정한 것이기 때문에, 유아기부터 청장년의 사고사나 질병사도 포함된다. 또한 위험에 노출된 특정 직업군에 종사해서 사고사 비율이 높은 경우, 모집단의 표본 자체가 평균수명이 현저히 낮을 수 있다. 따라서 대다수 노화로 죽는다는 ‘사망사유’와 함께 ‘최빈사망언령’을 함께 분석해야 조금 더 우리가 원하는 값을 얻을 수 있다.

다른 예시를 들어보자. 2010년과 2020년 사이의 우리나라 국회의원의 평균 재산은 20-50억 사이이다. 그러나 이 평균값이 한 번에 치고 올라온 적이 있었다. 현대가의 정몽준은 2014년 자진 사퇴하기까지 국회의원을 7선을 한 적이 있다. 그런데 그는 대단한 기업인이고, 당시 재산만 2조원 이상을 소유했었다. 이를 함께 포함시켜 평균을 연산하니 갑자기 국회의원 평균 재산은 100억을 상회했다.