개요
빅데이터 예측 분석 강의를 통계 기초 없이 수강했다가 코드는 따라 쳤지만 결과를 해석하지 못하는 상황이 됐다. ML 알고리즘은 내부적으로 통계 수식을 사용한다. 수식을 외울 필요는 없지만 평균, 분산, 상관관계, 정규분포 이 4가지 개념이 없으면 결과 해석이 불가능하다.
WHY — 통계가 ML의 선행 과목인 이유
ML 모델이 "정확도 87%"라고 출력했을 때, 통계를 모르면 "오 높은가 보다"로 끝난다. 통계를 알면 "데이터 불균형이 있어서 이 수치가 의미 없을 수 있다"는 판단이 가능해진다.
| 구분 | 통계 기반 분석 | 빅데이터 예측 분석 |
|---|---|---|
| 핵심 질문 | 지금 어떻게 생겼나? | 앞으로 어떻게 될까? |
| 시제 | 과거/현재 설명 | 미래 예측 |
| 관계 | 선행 과목 | 후속 과목 |
HOW — ML에 필요한 통계 4가지
1. 평균 (Mean) — 데이터의 대표값
데이터 전체를 하나의 숫자로 요약한다. ML에서는 예측값이 얼마나 맞는지 평균 오차로 측정할 때 사용한다.
라우터 5대 CPU 사용률: 20, 30, 50, 40, 60 평균 = (20+30+50+40+60) / 5 = 40%
2. 분산 / 표준편차 (Variance / Std) — 데이터의 퍼짐 정도
평균이 같아도 데이터 성격은 완전히 다를 수 있다. 표준편차가 크면 데이터가 널뛰기하는 것이고, 예측하기 어렵다는 의미다.
A 회선: 39, 40, 40, 41, 40 → 평균 40%, 표준편차 작음 (안정) B 회선: 10, 20, 80, 60, 70 → 평균 48%, 표준편차 큼 (불안정)
ML에서 표준편차를 쓰는 이유: 이상치 탐지, 데이터 정규화(Normalization)에 필수로 사용된다. 스케일이 다른 데이터를 같은 기준으로 맞출 때 표준편차로 나눈다.
3. 상관관계 (Correlation) — 두 값이 같이 움직이는 정도
-1에서 +1 사이의 숫자로 표현한다. 1에 가까울수록 강한 양의 상관관계, -1에 가까울수록 강한 음의 상관관계다. ML에서는 예측에 쓸 변수를 고를 때, 상관관계가 높은 것을 우선 선택한다.
기온 올라감 → 에어컨 트래픽 올라감 (양의 상관, +0.9) 방화벽 룰 추가 → 처리 속도 내려감 (음의 상관, -0.8) 날씨 맑음 → 네트워크 트래픽 변화 없음 (무관, 0.0)
4. 정규분포 (Normal Distribution) — 종 모양 분포
자연계의 많은 데이터가 이 형태를 따른다. 평균 근처에 데이터가 몰려 있고, 극단값은 드물다. ML 알고리즘 대부분이 데이터가 정규분포에 가깝다고 가정하고 동작한다.
▲
│ ●
│ ● ● 대부분의 패킷 크기는 평균 근처
│● ● 아주 작거나 아주 큰 패킷은 드묾
└────────── → 드문 것 = 이상치 가능성
낮음 평균 높음
4가지 관계 요약
| 개념 | 의미 | ML에서 쓰이는 곳 |
|---|---|---|
| 평균 | 데이터의 중심 | 오차 측정, 기준값 계산 |
| 표준편차 | 데이터의 퍼짐 | 이상치 탐지, 정규화 |
| 상관관계 | 두 값의 연관성 | 변수 선택 |
| 정규분포 | 데이터 전체 분포 형태 | 알고리즘 가정, 이상치 판별 |
면접 포인트
Q. 표준편차가 ML에서 왜 중요한가요?
두 가지 이유입니다. 첫째, 이상치 탐지에 사용됩니다. 평균에서 표준편차 3배 이상 벗어난 값은 이상치로 판단합니다. 둘째, 데이터 정규화에 사용됩니다. 사용률(0~100%)과 패킷 크기(0~65535 bytes)처럼 스케일이 다른 변수를 ML에 함께 입력할 때, 표준편차로 나눠 같은 기준으로 맞춰야 알고리즘이 제대로 동작합니다.
Q. 상관관계와 인과관계의 차이는 무엇인가요?
상관관계는 두 값이 같이 움직인다는 것이고, 인과관계는 한 값이 다른 값을 직접 일으킨다는 것입니다. 아이스크림 판매량과 익사 사고 수는 높은 상관관계를 가지지만, 아이스크림이 익사를 일으키는 게 아니라 여름이라는 공통 원인이 있습니다. ML은 상관관계를 학습하는 것이지 인과관계를 증명하지 않습니다.
Q. 네트워크 이상탐지에서 정규분포를 어떻게 활용하나요?
평상시 트래픽 데이터를 수집해서 평균과 표준편차를 구합니다. 새로 들어오는 트래픽이 평균에서 표준편차의 3배 이상 벗어나면 이상 트래픽으로 판단합니다. 통계에서는 이를 3-sigma 규칙이라고 하며, 정규분포에서 평균 ±3σ 범위 밖에 떨어질 확률은 0.3%에 불과합니다.
'AI > 빅데이터' 카테고리의 다른 글
| [빅데이터] 딥러닝 - CNN, RNN, Transformer까지 한 번에 정리 (0) | 2026.04.14 |
|---|---|
| [빅데이터] 군집분석 - 정답 없이 이상한 것을 찾아낸다 (0) | 2026.04.14 |
| [빅데이터] 랜덤포레스트 - 수백 개의 스무고개로 다수결을 낸다 (0) | 2026.04.14 |
| [빅데이터] 선형회귀 - ML의 첫 번째 알고리즘, 직선 하나로 예측한다 (0) | 2026.04.14 |
| [빅데이터] AI, ML, 딥러닝 - 개념 지도부터 잡아라 (0) | 2026.04.14 |