hideBreadcrumbs: true
bottomNavigator: null
title: "데이터에서 Signal(유의미한 차이)과 Noise(우연에 의한 차이) 구분하기"
description: "본질적인, 그래서 일반화할 수 있는 차이를 **Signal**이라 하고 우연(Chance)에 의해 유발된 차이를 **Noise**라 했을 때 Signal과 Noise를 어떻게 구분할 수 있을까요? "
<head>
<link rel="canonical" href="<https://community.heartcount.io/ko/decision-tree/>" />
</head>

두 집단을 구분하는 특성 찾기 관련 시리즈

  1. 타이타닉호 데이터셋 실습 1탄 : 데이터에서 두 집단을 구분하는 특성 찾기
  2. 타이타닉호 데이터셋 실습 2탄 : 생존자/사망자 분류 규칙 발견하기
  3. 데이터에서 Signal(유의미한 차이)과 Noise(우연에 의한 차이) 구분하기

Intro

데이터에서, Signal과 Noise란?

현업 관점에서 데이터 분석이란 목표변수(Y) 값의 차이를 설명하는 일이고

차이는 본질적인 차이와 우발적인 차이의 합으로 구성됩니다.

전국의 개별 대리점들이 나타내는 순이익률의 차이는 대리점에 내재된 본질적 성과(기량) 차이의 반영일 수도 있고 단순히 운이 좋아 장사가 잘(안)된 것의 반영일 수도 있는 것처럼 말이죠.

본질적인, 그래서 일반화할 수 있는 차이를 Signal이라 하고 우연(Chance)에 의해 유발된 차이를 Noise라 했을 때 Signal과 Noise를 어떻게 구분할 수 있을까요?

(우발적이거나 허구적 서열에 근거한 차이를 본질적 차이라고 주장한 것이 차별의 역사이기도 합니다.)

참고로 안정된 시스템일수록, 시스템을 구성하는 개별 구성요소들의 기량의 차이가 적어진게 된다. 이것은 구성요소들(예, 개별 대리점)이 best practice를 서로 서로 학습한 결과 돈버는 기량이 서로 비슷해지게 되어, 결국 이익의 차이(변량) 역시 작아지기 때문이다. 이렇게 기량의 차이가 적은 구성요소들로 구성된 시스템에서는 개별 구성요소들의 성과 차이에 미치는 운의 영향력이 상대적으로 커지게 되는데 이런 현상을 기량의 역설(Paradox of Skill)이라고 한다.

양극단의 두 집단 비교하기