반응형

 

데이터 공간의 형성

데이터마다 다른, 변수와 관측치 구성에 따라 만들어진 공간

 

데이터 공간의 구성과 특성

변수 수만큼의 차원이 생성

관측치 수 만큼의 점이 공간에 표현

 

데이터 공간과 분석의 재정의

키 몸무게 같은 변수가 만들어 내는 공간에서 관측치들이 만들어 내는 차이를 숫자와 그래프로 확인하고 더 자세히 상대적인 차이를 확인 한 다음 가능하다면 차이를 설명하는 과정

 

공간에서 범주형 변수

관측치들이 1차원에서 정해진 k개 수준 중 하나의 값을 가짐

  • 빈도표 - 각 수준에 관측치들이 몇 개씩 있는지를 표로 요약
  • 막대그래프 : 요약된 표의 빈도만큼 높이로 표현

 

공간에서 수치형 변수

관측치들이 1차원 수직선에서 다양한 값을 가짐

  • 다섯 숫자 요약 상자 그림 : 최솟값, 최댓값 등의 위치를 확인
  • 히스토그램 : 1차원을 구간 화하고 구간별 관측치 수를 확인
  • 평균 : 1차원 공간의 무게 중심
  • 분산 : 평균을 중심으로 관측치들이 흩어진 정도

 

1차원에서 2차원으로

 

한 변수의 분석

1차원 공간에서 관측치들의 흩어진 패턴을 파악

주로 변수의 특성을 확인하는데 초점

 

두 변수의 분석

2차원 공간에서 관측치들의 흩어진 패턴을 파악

두 변수의 관계를 설명하는 데 초점

 

교차 표를 활용한 두 범주형 변수

두 범 주형 변수의 관계

두범주형 변수의 수준들 간의 관계로 확인 가능

 

교차 표

두 범주형 변수의 요약을 위한 2차원 표

두 범주형 변수의 수준 조합에 대한 빈도 표

수준 조합의 절대적인 차이를 확인

 

열지도(Heatmap)를 활용한 교차 표의 시각화

2차원 교차 표를 숫자 대신 색으로 표현한 그림

숫자 대신 색의 진하기로 크기를 표현

공공데이터 포털 지표

 

큰 교차 표에서 더 효율적인 열지도

숫자보다 더 직관적인 그림이 크기를 비교하는데 편리

 

 

행 백분율과 열 백분율의 의미

교차 표의 상대적인 차이 확인

절대적인 차이 : "이 칸에 관측치가 많다"

상대적인 차이 : "이 칸이 상대적으로 비율이 높다"

전체가 아닌 각 행과 열 에서 상대 빈도를 계산

각 수준의 전체 상대 빈도와 비교

 

 

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기