728x90
반응형
크롤링(Crawling)
- 다양한 정보를 활용하기 쉽도록 수집하는 행위가 크롤링
- 크롤링을 하는 프로그램을 크롤러라고 한다.
- 웹의 데이터를 자동화해 가져오는 크롤러가 웹 크롤러다.
ETL(Extract Transformation Loading)
내외부의 다수의 데이터를 추출하고 맞게 변환을 후에 저장하는 절차를 의미한다.
ELT(Extract Loading Transformation)
ETL 오픈 소스 두구
- Talend
- Prntaho
- Knime
- Apache NIFI
- StramSets
정형 데이터(Structured Date)
- 엑셀 등의 시트에서 작업하듯 열과 행을 정리하여 표로 만들 수 있는 데이터
- 정형 데이터 쉽게 다루기 위해 관계형 데이터 베이스가 활용되기도 함
- 정형 데이터를 File로 변환할 경우에는 CSV, TSV 파일로 저장한다.
비정형 데이터(Unstructured Date)
- 문서, 동영상, 사진, 음성 등의 형태를 정의할 수 없는 데이터
- 정형 데이터를 다루는 관계형 데이터 베이스를 활용이 불가능
- 분석을 위해서는 비정형 데이터를 정형화하는 다양한 과정이 필요하다.
반정형 데이터(Semi-Structured Date)
- 관계형 데이터베이스나 다른 형태의 데이터 테이블과 연결된 정형 구조의 데이터 모델을 준수하지 않는 정형 데이터의 한 형태이다.
- 각 의미를 구분할 수는 있지만 행과 열 형태의 표로 쉽게 정리 가 어려움
- Json XML HTML
728x90
반응형
'데이터분석 > 기초' 카테고리의 다른 글
[데이터분석] Data Engineering(엔지니어링) 3 (2) | 2021.12.11 |
---|---|
[데이터분석] Data Engineering(엔지니어링) 2 (2) | 2021.12.10 |
[데이터분석] Machine Learning(머신러닝) 6 (2) | 2021.12.08 |
[데이터분석] Machine Learning(머신러닝) 5 (2) | 2021.12.07 |
[데이터분석] Machine Learning(머신러닝) 4 (2) | 2021.12.06 |
최근댓글