[데이터분석] Machine Learning(머신러닝) 1

728x90

Machine Learning(머신러닝)

머신러닝은 컴퓨터가 데이터를 학습하는 알고리즘과 기술을 통칭하면서 컴퓨터과학과 수학, 통계가 모두 필요한 학문입니다. 현상을 설명하거나 미래를 예측하는 용도로 활용한다.

기존의 스팸 메일을 분류하는 규칙을 만들어서 모델화 된 것입니다.

스팸 필터링 규칙으로 충분하지 않습니다.

구글에서 똑똑한 스팸 필터링을 한번 알아보도록 하겠습니다.

지메일의 똑똑한 스팸 필터링으로 원하는 메시지만 받아 보세요.

지메일팀은 사용자가 보고 싶어하는 모든 이메일은 받은 편지함에 무사히 도착하고, 원하지 않는 스팸 메일은 눈에 띄지 않도록 최선의 노력을 기울이고 있습니다. 그 결과 평균적으로 지메일

korea.googleblog.com

기존의 추적된 메일들을 데이터 공간에 분리한 후에 스팸 메일과 스팸이 아닌 메일을 분류하는 경계를 학습하게 됩니다.

이때 학습 알고리즘, 로지스틱 회귀 모델, 인공신경망, 의사결정 나무 을 통해서 데이터 학습하여 생성된 모델을 이용하여 새로운 메일이나 문자를 스팸 여부를 예측합니다.

사람이 직접 스팸 분류를 하는 것에 비해 덜 치치면서 더 빠르게 스팸을 분류할 수 있다.

규칙 기반의 스팸 필터링 모델에 비해 여러 인자를 동시에 고려하며 스팸을 분류할 수 있고 더 많은 유형의 스팸이 분류된다.

이 모든 것들은 더 많은 양의 데이터가 필요하고 더 많은 컴퓨팅이 필요하다.

1. 지도 학습(Supervised Learning)

2. 비지도 학습(Unsupervised Learning)

3. 강화 학습(Reinforcement Learning)

728x90