산점도(Scatter Plot)
두 수치형 변수를 가로축, 세로축으로 활용하여 그린 그래프
2차원 공간에 관측치의 수만큼 찍힌 점의 패턴을 파악
보조선의 중요성
두 변수의 평균을 활용해서 수직/수평선 추가
두 직선이 만나는 지점이 2차원 공간의 무게중심
사분면과 관측치들의 분류
2차원 공간에서 무게 중심 기준으로 나눠진 4개 면
오른쪽 위 제1 사분면부터 반시계 방향으로 순서를 지정
사분면과 두 변수의 상관관계
1. 두 수치형 변수의 관계
- 양의 상관 =" 같이 간다"
- 음의 상관 = " 반대로 간다"
2. 산점도의 패턴과 두 변수의 관계
- 제1,3 사분면의 관측치 수 ↑: 두 변수의 양의 상관을 의미
- 제2,4 사분면의 관측치 수 ↑: 두 변수의 음의 상관을 의미
공분산을 활용하여 변수 관계 확인하기
두 수치형 변수의 관계를 계산한 기술 통계량
- 0에 가까울수록 관련이 없음
- 큰 양수가 나올수록 두 변수가 양의 상관을 가짐
- 큰 음수가 나올수록 두 변수가 음의 상관을 가짐
공간에서 공분산의 의미 확인하기
관측치 별 값의 계산
- 제1,3 사분면의 관측치는 양의 면적이 계산됨
- 제2,4 사분면의 관측치는 음의 면적이 계산됨
공분산의 한계와 대체방안
공분산의 특성과 한계
두 변수의 관계에 대한 절대적인 요약 값
단위 문제 발생
scale : 공부시간과 점수의 분포에 비해 단위가 큰 수장로 계산된 공분산
unit : 공부 시간과 점수의 공분사의 단위는 "시간 X 점"
상관계수의 도입
두 변수를 표준화해서 공분산의 단위의 문제를 해결
두 변수의 관계에 대한 상대적인 요약 값
피어슨 상관계수
표준화된 두 수치형 변수로 계산된 공분산
공분산의 단위(scale/unit)의 문제를 해결
변수의 형식에 맞는 2차원 분석 방법을 활용
두 범주형 변수의 관계 : 교차 표를 활용한 수준 간 관계 확인
두 수치형 변수의 관계 : 삼전도를 활용한 관측치 패턴 확인
한 범 주형 변수 와한 수치형 변수의 관계
범주형 변수를 그룹으로 활용한 수치형 변수의 그룹별 평균 계산
수치형 변수를 조건으로 활용한 범주형 변수의 조건부 비율 계산
조건부 평균(conditional mean)의 계산과 활용
범주형 변수의 수준별로 관측치를 나누기
각 수준별로 수치형 변수의 평균을 계산
그룹(수준)에 따른 절대적인 차이를 확인
상대적인 차이의 확인
전체 평균 대비 그룹별 평균을 비교
히스토그램과 상자 그림
한 수치형 변수의 분포를 확인하는데 활용
그룹별 상자 그림
각 수준별로 수치형 변수의 상자 그림을 작성
동일한 축을 활용하여 나란하게 표현
그룹 간의 분포 비교에 활용
수치화 변수의 구간화
히스토그램을 그리기 위해 수치형 변수를 구간화
구간 값을 활용하여 범주형 변수로 변환 후 요약 가능
범주형 변수와 구간화 된 수치형 변수의 관계
사실상 두 범주형 변수의 관계
교차 표등을 활용해서 분석
'데이터분석 > 기초' 카테고리의 다른 글
[데이터분석] 데이터 분석의 꽃 통계 7 (2) | 2021.12.21 |
---|---|
[데이터분석] 데이터 분석의 꽃 통계 6 (0) | 2021.12.20 |
[데이터분석] 데이터 분석의 꽃 통계 4 (2) | 2021.12.18 |
[데이터분석] 데이터 분석의 꽃 통계 3 (0) | 2021.12.17 |
[데이터분석] 데이터 분석의 꽃 통계 2 (2) | 2021.12.16 |
최근댓글