반응형

데이터(DATA)

데이터를 수집은 관찰하고 기록하는 사람의 선택이 개입됩니다.

우리 주변에서 일어나는 현상의 모든 측면을 측정하고 기록하는 것을 불가능합니다.

 

데이터 저장

  • Observation : 우리가 관찰하는 현상
  • Variables : 그 현상이 가지고 있는 속성
  • Matrix : Observation과 Variables를 테이블 형태로 저장된 것을 정형 데이터(Structured Data)라고 한다.
  • Structured Query Language(SQL) : 정형 데이터(Structured Data)를 저장하고 관리하는 방식 중 가장 많이 이용되는 방식이다.

 

데이터 타입(Types of Data)

Numerical : 숫자 데이터 

  • Discreate : 정수, 자연수, 2의 배수 등 와 같은 숫자
  • Continuous : 유리수, 실수 등 계속 이어지는 숫자
  • 크기를 비교할 수 있음
  • 사칙 연삭 및 연산을 할 수 있음
  • 평균, 최댓값, 최소값 등 통계량을 구할수 있음.

DataTime : 날짜 데이터

  • 덧셈 뺄셈 연산을 할수 있음 (2021-09-15  - 2021-09-10 = 5)
  • 비교 가능
  • 평균 최대값 최소 값 등의 통계량을 구할 수 있음.

Categorical : 카테고리 데이터

  • Ordinal : 순서가 있는 카테고리 ( 등급/고객 만족도/별점)
  • Nominal : 순서가 없는 카테고리 (직업군, 고객 문의) 집계를 통해 분포를 구할 수 있음.

 

String : 문자열 데이터

  • 텍스트 데이터
  • 이름, 이메일 주소
  • 사칙연산 불가
  • 평균 최댓값 최소 값 등 통계량 계산 불가

 

State(상태 값) : 특정 시점의 상태 값

  • 회원번호, 이름, 성별, 가입일시: 데이터를 업데이트할 일 없음.
  • 멤버십 등급 : 정기적으로 변경될 때마다 데이터를 업데이트함.

 

Log(로그) : 변경이력을 기록하는 값

  • 회원정보 DB는 최신 상태 값(State)만 기록함
  • 변경이력(Log)을 별도로 쌓아야 함.
  • 과거 데이터를 분석하기 위해 변경이력(Log)이 필요
  • 데이터를 분석하기를 위해서는 변경이력(Log)이 관리할 필요가 있음.

 

Garbage Date In/OUT ( 쓰레기 데이터)

  • 쓰레기 데이터를 잘못 사용하면 뭘 잘못 한지 알 수 없음
  • 의사결정권자 혹은 실무자들에게 데이터 분석은 블랙박스와도 같음
  • 일단 누군가가 데이터를 한번 분석하고 나면 의사결정권자들은 그 분석 결과를 어떻게 사업에 활용할지 고민이 함.
  • 데이터 분석 내용을 따져 볼 여유가 없는 경우가 많음.
  • 대부분 데이터 수집, 기록, 저장 과정에서 생성됨.

 

Sanity Check(온전한 데이터 체크)

  • 간단한 체를 통해 쓰레기 데이터를 인한 잘못된 의사결정 방지함.
  • 데이터를 보는 사람들이 항상 염두에 두어야 할 개념
  • 어떤 주장, 혹은 계산 결과가 사실 일 수 있는지 여부를 빠르게 결정하는 테스트
  • 산출물이 합리적인지 확인하는 기본적인 점검 절차
  • 명확하게 틀린 결과를 찾아서 배제하기
  • 의심 가는 특정 숫자 기억하기
  • 데이터 수집 및 기록방식 이해하기
  • 이상 수치(Amonaly)를 포착하고 의문 가지기

 

Structured Query Language(SQL)

  • SQL 방식의 DB에 저장된 데이터를 찾으려고 SQL 명령문(퀴리)을 이용해야 함.
  • SQL은 데이터 추출의 표준 문법이다.

 

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기