
머신러닝이란 ?
컴퓨터가 데이터를 학습하는 알고리즘과 기술을 통칭한다.
컴퓨터과학과 수학, 통계가 모두 필요한 분야이다.
현상을 설명하거나 미래를 예측하는 용도로 활용한다.
머신러닝의 유형
지도학습(Supervised Learning)
입력 데이터(X)와 타겟값(Y)를 알고 있는 데이터를 학습하여 , 이들의 관계를 모델링하는 학습 방법이다.
새로운 데이터에 대한 학습값을 예측하는 데에 사용한다.
함수로 표현하면, y = f(X)에 해당한다. 이 때의 y는 타겟값, f는 모델, X는 입력 데이터에 해당한다.
지도학습은 Y의 형태에 따라 두 가지로 나뉜다. 첫 번째는 분류(Classification), 두 번째는 회귀(Regression)이다.
분류(Classification)
타겟변수 Y가 이산형 변수인 경우이다. (이산형 변수: 특정한 값만 가질 수 있는 변수, 가질 수 있는 값이 유한)
예시: 개와 고양이의 분류, 얼굴 인식, ...
회귀(Regression)
타겟변수 Y가 연속형 변수인 경우이다. (연속형 변수: 연속 범위 내에서 임의의 값을 가질 수 있는 변수, 가질 수 있는 값이 무한)
예시: 이미지에서 물체의 위치 파악, 이번 달 수요 예측
비지도학습(Unsupervised Learning)
타겟값(Y)이 없는 입력 데이터(X)만을 학습하는 방법이다.
입력 데이터에 내재되어 있는 특성을 찾아내는 용도이다.
비지도학습은 군집화, 4가지의 종류로 나뉜다.
군집화(Clustering)
유사한 포인트들끼리 그룹을 만드는 방법이다.
잠재 변수 모델(Latent Variable Model)
표현된 데이터 속에 내재되어 있는 요인을 찾는 것이다.
주성분 분석(Principal Component analysis=PCA), 특이값 분해(Singular Value Decomposition=SVD), 비음수 행렬 분해(Nonnegative Matrix Factorization=NMF)등의 종류가 있다.
밀도 추정(Density Estimation)
관측된 데이터를 이용하여 데이터 생성에 대한 확률밀도함수를 추정한다.
가우시안 혼합 모델(Gaussian Mixture Model=GMM), 커널 밀도 추정(Kernel Density Estimation=KDE)의 종류가 있다.
이상치 탐지(Novelty Detection)
다른 포인트들과 비교하여 많이 벗어나 있는 포인트를 찾아낸다.
인공신경망 기반 비지도학습
Generative Adversarial Network(GAN)의 종류가 있다.
강화학습(Reinforcement Learning)
자신이 한 행동에 대한 보상을 바탕으로 목적을 달성하는 학습이다.
Game AI에서 사용한다.