728x90
반응형
수치형 변수의 합계
수치형 변수와 범주형 변수의 차이
- 수치형 변수는 사칙연산(+-×÷) 가능
수치형 변수의 합계를 활용한 요약
- 평균 : 관측치들의 저 반적으로 큰 정도
- 분산/표준편차 : 관측치들 사이의 전반적인 차의 정도
수치형 변수와 표기법(Notation)
복잡한 계산을 표현하기 위해 미리 의미를 약속해둔 기호
n : 관측치 개수
평균(mean)의 의미와 계산
수치형 변수의 모든 관측치를 더하고 관측치 개수로 나눈 값
고정된 합계를 관측치 간 차이가 없게 나눠 가진 값
관측치들의 전반적인 크기를 의미
평균과 중앙값의 비교
관측치들의 전반적인 크기를 설명하는 값
평균 - 전반적인 크기를 잘 설명하지만 특이값에 따란 영향을 많이 받음
중앙값 - 관측치 개수를 활용하기 때문에 특이값의 영향이 제한적
분산(variance)의 계산
관측치에서 평균을 뺀 것은 제곱의 평균
관측치들이 평균을 중심으로 흩어져 있는 정도(면적)
표준편차(Standard Deviation)의 계산
계산된 분산의 제곱근
분산이 가지는 단위(Scale/Unit)의 문제를 해결
관측치들이 평균을 중심으로 흩어져 있는 정도(길이)
관측치의 상대적인 위치
상대적인 위치의 필요성
각 관측치의 절대적인 값보다 활용도가 높은 상대적인 값
상대적인 위치의 계산
한 변수에서 다른 관측치들을 고려한 상대적인 위치 계산 가능
백분율, MinMax(최소 최대) 변환, 표준화 등을 활용
다양한 상대적인 위치
백분율 - 전체 관측치 중 특정 값보다 작은 관측치 개수의 비율을 0~1로 계산
최소-최대 정규화(min-max normalizarion) - 최솟값 최댓값의 구간에서 특정 값의 상대적 위치를 0~1로 계산
표준화(Standarfization)
- 특정 값이 평균으로부터 떨어진 정도를 표준편차의 단위로 표현
- 평균과 표준편차에 따라 부호에 상관없이 다양한 값을 가질 수 있음
728x90
반응형
'데이터분석 > 기초' 카테고리의 다른 글
[데이터분석] 데이터 분석의 꽃 통계 5 (0) | 2021.12.19 |
---|---|
[데이터분석] 데이터 분석의 꽃 통계 4 (2) | 2021.12.18 |
[데이터분석] 데이터 분석의 꽃 통계 2 (2) | 2021.12.16 |
[데이터분석] 데이터 분석의 꽃 통계 1 (2) | 2021.12.15 |
[데이터분석] Data Engineering(엔지니어링) 6 (0) | 2021.12.14 |
최근댓글