728x90
반응형

 

데이터 구성과 데이터 분석

데이터 구성 변수와 관측치

고객 성별 연령대 매출금액
1번 고객      
2번 고객      
3번 고객      
4번 고객      
5번 고객      

 

변수의 형식 분류

범주형 변수 - 관측치들이 몇 개의 정해진 값만 가질 수 있음.

수치형 변수- 관측치들이 다양한 숫자 값을 가질 수 있음

 

데이터 분석의 목적

  • 변수 속에서 관측치 간의 차이를 확인
  • 변수 간의 관계를 확인
  • 차이와 관계를 확인 하고 설명

 

데이터 분석의 과정

  • 숫자와그래프와 차이를 확인
  • 모형으로 차이를 설명

 

두 가지 차이

절대적 차이 - 관측치의 실제 값이나 데이터를 요약해서 얻은 숫자의 차이

상대적 차이 - 절대적인 차이를 상대적인 값으로 바꾼 숫자의 차이

절대적인 점수 상대적인 등수
90점 30명 중 3등

 

기술 통계량의 활용

통계량 - 데이터로부터 계산된 모든 숫자

기술 통계량 - 변수나 변수의 관계 등 데이터의 특성을 설명하는 통계량

 

범주형 변수와 수준

범주형 변수 - 관측치들이 몇 개의 정해진 값만 가질 수 있음

범주형 변수의 수준 - 어떤 범주형 변수의 관측치들이 가질 수 있는 값들의 묶음 처리 및 그룹이라고 도 표현

 

범주형 변수의 요약

  1. 수준별로 관측치 나누기
  2. 수준별로 관측기 개수 세기
  3. 표로 정리하기
고객 1 2 3 4 5 6
성별
   
       
4 2

 

표의 차이

빈도표(Frequency Table)

범주형 변수의 수준별 관측치 수를 정리한 표

수준 간 절대적인 차이를 확인

 

상대 빈도(Relative Frequency)

빈도 표에서 각 수준의 비율을 계산

수준 간 상대적인 차이를 확인

 

상대 빈도의 계산

 

범주형 변수 성별의 빈도 표 확인 하기

4 2

전체 합계 계산 하기

합계
4 2 6

각 수준의 숫자를 전체 합계로 나눠서 비율 계산하기

합계
0.66 0.34 1.00

 

범주형 변수의 시각화

막대 그래프

계산된 빈도 표를 활용하여 각 수준의 값을 높이로 표현

절대적인 차이를 확인

원 그래프

계산된 상대 빈도를 활용하여 원을 부채꼴로 분할

상대적인 차이를 확인

 

 

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기