728x90
반응형
데이터 공간의 형성
데이터마다 다른, 변수와 관측치 구성에 따라 만들어진 공간
데이터 공간의 구성과 특성
변수 수만큼의 차원이 생성
관측치 수 만큼의 점이 공간에 표현
데이터 공간과 분석의 재정의
키 몸무게 같은 변수가 만들어 내는 공간에서 관측치들이 만들어 내는 차이를 숫자와 그래프로 확인하고 더 자세히 상대적인 차이를 확인 한 다음 가능하다면 차이를 설명하는 과정
공간에서 범주형 변수
관측치들이 1차원에서 정해진 k개 수준 중 하나의 값을 가짐
- 빈도표 - 각 수준에 관측치들이 몇 개씩 있는지를 표로 요약
- 막대그래프 : 요약된 표의 빈도만큼 높이로 표현
공간에서 수치형 변수
관측치들이 1차원 수직선에서 다양한 값을 가짐
- 다섯 숫자 요약 상자 그림 : 최솟값, 최댓값 등의 위치를 확인
- 히스토그램 : 1차원을 구간 화하고 구간별 관측치 수를 확인
- 평균 : 1차원 공간의 무게 중심
- 분산 : 평균을 중심으로 관측치들이 흩어진 정도
1차원에서 2차원으로
한 변수의 분석
1차원 공간에서 관측치들의 흩어진 패턴을 파악
주로 변수의 특성을 확인하는데 초점
두 변수의 분석
2차원 공간에서 관측치들의 흩어진 패턴을 파악
두 변수의 관계를 설명하는 데 초점
교차 표를 활용한 두 범주형 변수
두 범 주형 변수의 관계
두범주형 변수의 수준들 간의 관계로 확인 가능
교차 표
두 범주형 변수의 요약을 위한 2차원 표
두 범주형 변수의 수준 조합에 대한 빈도 표
수준 조합의 절대적인 차이를 확인
열지도(Heatmap)를 활용한 교차 표의 시각화
2차원 교차 표를 숫자 대신 색으로 표현한 그림
숫자 대신 색의 진하기로 크기를 표현
큰 교차 표에서 더 효율적인 열지도
숫자보다 더 직관적인 그림이 크기를 비교하는데 편리
행 백분율과 열 백분율의 의미
교차 표의 상대적인 차이 확인
절대적인 차이 : "이 칸에 관측치가 많다"
상대적인 차이 : "이 칸이 상대적으로 비율이 높다"
전체가 아닌 각 행과 열 에서 상대 빈도를 계산
각 수준의 전체 상대 빈도와 비교
728x90
반응형
'데이터분석 > 기초' 카테고리의 다른 글
[데이터분석] 데이터 분석의 꽃 통계 6 (0) | 2021.12.20 |
---|---|
[데이터분석] 데이터 분석의 꽃 통계 5 (0) | 2021.12.19 |
[데이터분석] 데이터 분석의 꽃 통계 3 (0) | 2021.12.17 |
[데이터분석] 데이터 분석의 꽃 통계 2 (2) | 2021.12.16 |
[데이터분석] 데이터 분석의 꽃 통계 1 (2) | 2021.12.15 |
최근댓글