728x90
반응형
데이터 구성과 데이터 분석
데이터 구성 변수와 관측치
고객 | 성별 | 연령대 | 매출금액 |
1번 고객 | |||
2번 고객 | |||
3번 고객 | |||
4번 고객 | |||
5번 고객 |
변수의 형식 분류
범주형 변수 - 관측치들이 몇 개의 정해진 값만 가질 수 있음.
수치형 변수- 관측치들이 다양한 숫자 값을 가질 수 있음
데이터 분석의 목적
- 변수 속에서 관측치 간의 차이를 확인
- 변수 간의 관계를 확인
- 차이와 관계를 확인 하고 설명
데이터 분석의 과정
- 숫자와그래프와 차이를 확인
- 모형으로 차이를 설명
두 가지 차이
절대적 차이 - 관측치의 실제 값이나 데이터를 요약해서 얻은 숫자의 차이
상대적 차이 - 절대적인 차이를 상대적인 값으로 바꾼 숫자의 차이
절대적인 점수 | 상대적인 등수 |
90점 | 30명 중 3등 |
기술 통계량의 활용
통계량 - 데이터로부터 계산된 모든 숫자
기술 통계량 - 변수나 변수의 관계 등 데이터의 특성을 설명하는 통계량
범주형 변수와 수준
범주형 변수 - 관측치들이 몇 개의 정해진 값만 가질 수 있음
범주형 변수의 수준 - 어떤 범주형 변수의 관측치들이 가질 수 있는 값들의 묶음 처리 및 그룹이라고 도 표현
범주형 변수의 요약
- 수준별로 관측치 나누기
- 수준별로 관측기 개수 세기
- 표로 정리하기
고객 | 1 | 2 | 3 | 4 | 5 | 6 |
성별 | 남 | 남 | 여 | 남 | 여 | 남 |
남 | 남 | 남 | 남 | 남 | ||
여 | 여 | 여 |
남 | 여 |
4 | 2 |
표의 차이
빈도표(Frequency Table)
범주형 변수의 수준별 관측치 수를 정리한 표
수준 간 절대적인 차이를 확인
상대 빈도(Relative Frequency)
빈도 표에서 각 수준의 비율을 계산
수준 간 상대적인 차이를 확인
상대 빈도의 계산
범주형 변수 성별의 빈도 표 확인 하기
남 | 여 |
4 | 2 |
전체 합계 계산 하기
남 | 여 | 합계 |
4 | 2 | 6 |
각 수준의 숫자를 전체 합계로 나눠서 비율 계산하기
남 | 여 | 합계 |
0.66 | 0.34 | 1.00 |
범주형 변수의 시각화
막대 그래프
계산된 빈도 표를 활용하여 각 수준의 값을 높이로 표현
절대적인 차이를 확인
원 그래프
계산된 상대 빈도를 활용하여 원을 부채꼴로 분할
상대적인 차이를 확인
728x90
반응형
'데이터분석 > 기초' 카테고리의 다른 글
[데이터분석] 데이터 분석의 꽃 통계 3 (0) | 2021.12.17 |
---|---|
[데이터분석] 데이터 분석의 꽃 통계 2 (2) | 2021.12.16 |
[데이터분석] Data Engineering(엔지니어링) 6 (0) | 2021.12.14 |
[데이터분석] Data Engineering(엔지니어링) 5 (2) | 2021.12.13 |
[데이터분석] Data Engineering(엔지니어링) 4 (0) | 2021.12.12 |
최근댓글