반응형

 

크롤링(Crawling)

  • 다양한 정보를 활용하기 쉽도록 수집하는 행위가 크롤링
  • 크롤링을 하는 프로그램을 크롤러라고 한다.
  • 웹의 데이터를 자동화해 가져오는 크롤러가 웹 크롤러다.

 

ETL(Extract Transformation Loading)

내외부의 다수의 데이터를 추출하고 맞게 변환을 후에 저장하는 절차를 의미한다.

 

ELT(Extract Loading Transformation)

 

ETL 오픈 소스 두구

  • Talend
  • Prntaho
  • Knime
  • Apache NIFI
  • StramSets

 

 

정형 데이터(Structured Date)

  • 엑셀 등의 시트에서 작업하듯 열과 행을 정리하여 표로 만들 수 있는 데이터
  • 정형 데이터 쉽게 다루기 위해 관계형 데이터 베이스가 활용되기도 함
  • 정형 데이터를 File로 변환할 경우에는 CSV, TSV 파일로 저장한다.

 

비정형 데이터(Unstructured Date)

  • 문서, 동영상, 사진, 음성 등의 형태를 정의할 수 없는 데이터
  • 정형 데이터를 다루는 관계형 데이터 베이스를 활용이 불가능
  • 분석을 위해서는 비정형 데이터를 정형화하는 다양한 과정이 필요하다.

 

반정형 데이터(Semi-Structured Date)

  • 관계형 데이터베이스나 다른 형태의 데이터 테이블과 연결된 정형 구조의 데이터 모델을 준수하지 않는 정형 데이터의 한 형태이다.
  • 각 의미를 구분할 수는 있지만 행과 열 형태의 표로 쉽게 정리 가 어려움
  • Json XML HTML
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기