1. 평균, 중위수, 최빈값
데이터 집합에서 중심 경향을 나타내는 측정값으로는 평균, 중위수, 최빈값이 있습니다. 이 중에서 평균은 데이터의 합을 개수로 나눈 값으로, 일반적으로 가장 흔히 사용되는 중심 경향 지표 중 하나입니다.
학생들의 시험 점수가 다음과 같다고 가정해봅시다.
85 , 90 , 92 , 78 , 88
이 경우, 평균은 다음과 같이 계산됩니다.
평균= (85+90+92+78+88) / 5 = 433 / 5 = 86.6
따라서 이 데이터 집합의 평균은 86.6입니다. 평균은 데이터의 합을 개수로 나눈 값입니다.
그러나 평균은 이상치에 민감하게 반응할 수 있습니다. 작은 수의 이상치라도 극단치는 평균값을 크게 영향을 끼칠 수 있습니다. 이런 경우에는 정리한 평균을 사용하여 극단적인 값의 효과를 상쇄할 수 있습니다.
비대칭 데이터에 대해 중심 경향을 나타내는 좀 더 강력한 측정 방법은 중위수입니다. 중위수는 데이터를 크기순으로 정렬했을 때 정확히 중간에 위치한 값이며, 데이터를 50%로 나누는 역할을 합니다.
속성 X에 대한 7개의 값이 다음과 같이 정렬되어 있다고 가정해봅시다.
10, 15, 18, 20, 22, 25, 30
홀수 개의 데이터인 경우, 중위수는 단순히 정렬된 집합의 가운데 값입니다. 이 경우 중위수는 20입니다.
데이터 집합에서 가장 자주 나타나는 값으로, 최빈수를 계산할 수 있습니다. 한 데이터 집합에서 여러 값이 동일한 빈도로 발생한다면, 그 집합은 여러 최빈값을 가질 수 있습니다. 만약 모든 값이 한 번씩만 나타난다면 최빈값은 없다고 할 수 있습니다.
2. 사분위수, 사분위 범위
사분위수 (Quartiles) 는 데이터를 크기순으로 정렬한 후, 1/4, 2/4(중위수), 3/4 위치에 있는 값을 각각 Q1, Q2, Q3로 정의합니다. Q1은 하위 25%의 데이터가 이 값보다 작거나 같고, Q3은 하위 75%의 데이터가 이 값보다 작거나 같습니다. 이는 데이터를 각각 4분위로 나누어 분포의 중심 경향을 나타내는 데 사용됩니다.
백분위수 (Percentiles)는 데이터의 특정 백분율 위치에 있는 값을 나타냅니다. 예를 들어, 25번째 백분위수는 데이터의 하위 25%에 속하는 값을 의미합니다. 백분위수는 데이터의 상대적 위치를 알 수 있게 해주어 데이터 분포를 더 자세히 이해할 수 있도록 도와줍니다.
사분위 범위 (Interquartile Range, IQR) 는 Q3에서 Q1을 뺀 값으로, 데이터의 중간 50% 범위를 측정합니다.
IQR = Q3 - Q1
IQR은 데이터의 흩어진 정도를 나타내는 중요한 측정값입니다.
3. 박스플롯, 이상치
박스플롯(Boxplot)은 데이터의 분포와 이상치를 시각적으로 나타내는 효과적인 방법 중 하나입니다. 박스플롯은 주로 사분위수(Q1, Q2, Q3)와 사분위 범위(IQR)를 사용하여 데이터의 중심 경향과 퍼짐 정도를 표현합니다.
[ 박스플롯의 구성요소 ]
- 상자 (Box): 데이터의 IQR를 나타냅니다. 상자의 아랫부분이 Q1이고 윗부분이 Q3입니다. 상자 내부의 가로선은 중앙값을 나타냅니다(Q2).
- 수염 (Whiskers): 데이터의 최솟값부터 최댓값까지를 나타내는 선입니다. 일반적으로 1.5 * IQR 범위 내에 있는 데이터를 이상치가 아닌 유효한 값으로 판단하고, 이 범위를 넘어가는 데이터는 이상치로 간주합니다.
- 이상치 (Outliers): 수염 바깥에 있는 점들로, 일반적인 데이터 분포에서 벗어난 극단적인 값들을 나타냅니다.
[ 이상치 감지 방법 ]
- 1.5 * IQR 규칙: 이상치로 간주되는 값을 찾기 위해 일반적으로 박스플롯에서는 1.5 * IQR 범위를 사용합니다. 즉, Q1 - 1.5 * IQR 보다 작거나, Q3 + 1.5 * IQR 보다 큰 값들이 이상치로 간주됩니다.
- 수염의 끝점: 박스플롯에서 수염의 끝점(whisker)을 벗어나는 점들을 이상치로 간주할 수 있습니다.
박스플롯은 데이터의 분포를 한눈에 파악할 수 있으며, 이상치의 존재 여부를 시각적으로 확인할 수 있어 통계적인 분석에서 유용하게 활용됩니다.
4. 분산과 표준편차
분산(Variance):
분산은 데이터의 산포 정도를 측정하는 지표 중 하나입니다. 각 데이터 포인트와 평균 간의 차이를 제곱하여 모두 더한 후, 그 값을 데이터의 개수로 나눈 것입니다.
표준편차(Standard Deviation):
표준편차는 분산의 양의 제곱근으로, 데이터가 평균에서 얼마나 퍼져 있는지를 나타냅니다.
표준편차가 작을수록 데이터가 평균에 모여 있음을 의미하며, 클수록 데이터가 퍼져 있음을 나타냅니다.
학생들의 시험 점수가 다음과 같다고 가정해봅시다
85, 90, 92, 78, 88
이 경우, 평균은 86.6이고, 각 데이터 포인트와의 편차를 제곱하여 더한 후 데이터 개수로 나누면 분산을 계산할 수 있습니다. 분산을 구한 후 이의 양의 제곱근을 취하면 표준편차를 얻을 수 있습니다.
'AI 및 데이터 분석' 카테고리의 다른 글
빅데이터의 실시간 적재를 위한 기술적 솔루션 (0) | 2023.11.29 |
---|---|
데이터웨어하우스의 필요성 (OLAP vs OLTP) (0) | 2023.11.28 |
데이터 객체와 속성: 특성과 유형 (0) | 2023.11.26 |
딥러닝 모델의 일반화 성능 최적화 전략 (0) | 2023.11.25 |
머신 러닝의 역사 (2) - 결정 트리에서 딥러닝까지 (0) | 2023.11.25 |