우리는 생각해야 합니다. 이 많은 정보의 호수에서 어떻게 하면 사람들에게 팔 수 있는지 사람들에게 정보 전달을 해야 하는지 막연하게 정보를 전달하더라도 사람들의 니즈를 파악하기 위해서는 정보를 분석을 해야 합니다.
바로 데이터 분석 입니다.
데이터의 가치
사람들이 느끼는 데이터의 가치는 엄청난 것이라고 생각합니다.
아무도 알 수 없는 데이터의 가치는 측정할 수 없지만 활요 가능성과 파극 효과를 계산하면 가치가 측정이 가능합니다.
데이터에서 가치를 만드는 과정
1. 목표 설정 - 데이터로 무엇을 할지 결정
2. 데이터 추출 - 전체 데이터가 아닌 필요한 부분만 추출해서 활용
3. 데이터 요약, 시각화, 모형 적합 - 데이터에서 정보나 인사이트를 확인
4. 인사이트의 활용 - 데이터 기한 한 의사 결정
데이터 분석의 가치
1. 불확실한 미래를 대비 - 데이터 속에 담긴 인사이트를 확인하고 아무것도 결정되지 않는 미래를 예측 가능
2. 데이터 기반의 의사 결정 - 직감이나 경험이 아닌 객관적인 데이터 분석을 활용한 의사 결정 가능
3. 새로운 소통의 언어 - 데이터의 가치를 중요시가 되는 소통 언어
데이터 분석의 절차와 방법
분석 절차는 상황에 따라 유동적이고 다양하다. 분석 목표와 목적에 따라 다르고 데이터의 종류와 특성에 따라 다르다.
연구와 데이터 분석
분석 목표를 먼저 설정하고 실험, 설문 등을 통해 데이터를 수집
비즈니스와 데이터 분석
기업 활동에서 쌓인 데이터를 활용하고 분석 가능한 적절한 분석 목표를 설정해야 한다.
경계가 모호한 다양한 데이터 분석
일반적으로 명확한 구분이 어렵다. 필요에 따라 분석의 목표가 정해지면 다양한 방법으로 접근을 해야 한다.
데이터 수집 하기
내부 데이터
- 사내 데이터베이스, 기존 연구 데이터 등
직접 수집한 데이터
- 실험 결과, 설문/리서치 결과
외부 데이터
- 정부 기관이 보유한 공공 데이터
- 일부 업체가 공개한 민간 데이터
외부 데이터 활용 예제
내부 데이터와 외부 데이터의 결합의 필요성
- 더 많은 변수 간의 관계를 활용해서 심도 있는 분석이 가능
공공 데이터의 활용
공공데이터 포털(data.go.kr)
- 다양한 공공기관의 데이터 및 api를 제공
• 주요 데이터) 국민건강보험공단의 진료 내역 데이터, 국토교통부 부동산 실거래 신고 데이터, 경찰청 교통사고정보 등
통계청 MDIS(mdis.kostat.go.kr)
- 통계조사(설문 등)의 원자료를 제공
• 주요 데이터) 경제총조사, 인구총조사 , 인구동향조사, 사교육비 조사 등
서울시 열린 데이터 광장(data.seoul.go.kr)
- 서울시와 관련된 각종 공공 데이터 제공
주요 데이터) 지하철 이용 관련 데이터, 미세먼지 데이터 등
민간 데이터의 활용
일부 기업이 제한적인 내부 데이터를 공개
SKT 빅데이터 허브(bigdatahub.co.kr) 지역/시간대/업종별 통화량 데이터 등
네이버 데이터랩(datalab.naver.com) 검색어 통계 및 지역/업종/연령/성별 카드 사용 통계(비씨카드 제공)
Kaggle(kaggle.com) 다양한 기업의 실제 데이터와 분석 사례를 확인 가능
확증적 데이터 분석(confirmatory data analysis)
미리 설정한 가설을 확인하기 위한 분석
- 추정(estimation)과 검정(test) 등을 활용
- 연구의 데이터 분석 방법
• 예제) “기온에 따라 커피 전문점의 방문객 수가 다를까?”
탐색적 데이터 분석(exploratory data analysis)
변수, 변수의 관계 등 데이터 자체의 특성을 확인하기 위한 분석
- 간단한 기술 통계량 계산과 다양한 그래프를 활용
- 모든 데이터 분석의 시작 단계에서 필수적인 과정
예제) “데이터 속에 커피 판매와 관련된 인사이트가 있을까?”
요약(aggregation)
- 데이터의 정보를 인식 가능한 수준으로 줄이는 과정
- 그룹별 관측치 수, 평균, 최댓값 계산 등 단순 숫자 요약을 의미
예제) “매장별 혼잡 시간대 계산”
모형(model)
정해진 알고리즘에 따라 데이터 속 변수와 관측치 간 관계를 확인
가능성을 수치화한 확률로 설명
예제) “날씨/요일/시간대에 따른 매장별 손님수와 주문 상품 예측”
데이터 가공의 필요성
데이터 가공(manipulation)
- 데이터 인식과 분석을 위해 데이터의 형태를 변환하는 과정
부분 데이터 선택
- 관심 있는 관측치와 변수를 선택
• 예제) “시청 지점 고객의 성별/연령에 따른 상품 선호도 분석”
변수 결합, 분해 및 파생변수 생성
기존 변수를 더 활용하기 좋은 형태로 변환
• 예제) 고객의 연령 대신 연령대 변수를 활용
분석의 실행
①분석 목표 설정
- 실행 가능성과 활용 가능성을 고려해서 결정
②데이터 수집
- 내부 데이터 및 관련 있는 외부 데이터를 활용
③탐색적 데이터 분석
- 변수나 변수 관계에 대한 열린 분석 실행
④확증적 데이터 분석 / 모형 적합
- 검정, 알고리즘 등을 활용한 분석 실행
분석과 분석 결과의 요약
- 전체 분석 과정이 아닌 분석의 흐름을 이해할 수 있는 수준으로 요약
- 효과적인 정보전달을 위한 그래프 활용 필요
- 적절한 도구를 활용하여 전달
'데이터분석 > 기초' 카테고리의 다른 글
[데이터분석] 헬스케어 / 제약 / 기타 데이터 활용 (2) | 2021.11.20 |
---|---|
[데이터분석] 금융 보험 데이터 활용하기 (2) | 2021.11.19 |
[데이터 분석] 제조업 통신/마케팅 데이터 활용하기 (4) | 2021.11.18 |
[데이터분석] 공공데이터 활용하기 (2) | 2021.11.17 |
[데이터분석] 데이터 관련 직무 (2) | 2021.11.16 |
최근댓글