Welcome To

후니's Blog

Hello World
Let's Focus On
다중 선형 회귀 모델 생성 방법
·
Machine Learning
다중 선형 회귀(Multiple Linear Regression) 모델 생성 방법모두 포함(All-in)설명 모든 독립 변수를 그대로 포함하여 모델을 학습한다.변수의 유의성 검증을 하지 않고, 주어진 데이터 그대로 학습한다.장점빠르고 간단하다.변수를 선택하는 추가 절차가 필요 없다.단점불필요한 변수가 포함되어 다중공선성 문제가 발생 가능하다.모델이 복잡해지고 해석이 어려워질 수 있다.언제 사용할까 ?독립 변수가 모두 중요한 변수임이 확실할 때설명보다는 단순한 예측이 목적일 때 후진 제거법(Backward Elimination)설명모든 변수를 포함한 상태에서 시작한다.통계적으로 가장 유의하지 않은 변수(p-value가 가장 높은 변수)를 제거한다.제거 후 다시 모델을 학습하고 p-value를 확인한다.모든..
선형 회귀 이해하기
·
Machine Learning
앤스컴 콰르텟(Anscombe's quartet)위 4개의 데이터 집합은 앤스컴 콰르텟(Anscombe's quartet)이라고 불린다.이를 통해 무작정 선형 회귀를 사용하면 안된다는 것을 보여준다.X1, X2, X3, X4 모두 선형 회귀를 사용하고있지만, X1을 제외한 X2, X3, X4에서는 선형 회귀를 사용하면 안된다.선형 회귀를 사용하기 위한 가정은 아래와 같다. 선형 회귀를 위한 가정선형성(Linearity, Linear relationship between Y and each X)설명독립 변수(X)와 종속 변수(y) 사이에는 선형적인 관계가 존재해야 한다.즉, X가 증가할수록 Y도 일정한 비율로 증가/감소해야 한다.위반 시 문제점모델이 데이터의 실제 패턴을 잘못 설명하게 된다.예측 정확도가..
단순 선형 회귀(Simple Linear Regression)
·
Machine Learning
식$$\hat{y} = b_{0} + b_{1}X_{1}$$좌변y는 종속 변수를 의미한다.이는 우리가 예측하고자 하는 값이다.우변b0은 y 절편을 의미한다.상수항을 의미한다.b1은 기울기 계수이다.X1은 독립 변수를 의미한다.예를 들어, b0 = 25000, b1 = 3000이면, 1.7년차 직원의 예측 급여는 y = 25000 + 3000 * 1.7 = 30100원이 된다. 가장 좋은 선형 회귀 선 찾기위와 같은 선형 회귀 그래프가 있다면, 어떤 것이 가장 좋은 선형 회귀 선인지 어떻게 알 수 있고 어떻게 정의할 수 있을까 ?가장 좋은 선형 회귀 선이란, 실제 데이터와 예측값의 차이가 가장 작은 선을 의미한다.이 차이를 수치화한 것이 잔차(residual)이며, 이 잔차들을 줄이는 것이 좋은 선형 모..
데이터 전처리(Data Preprocessing)
·
Machine Learning
라이브러리데이터 전처리를 위해 기본적으로 사용되는 주요 라이브러리는 다음과 같다.numpy고성능 수치 계산과 배열(행렬) 연산을 위한 라이브러리이다.머신러닝 데이터 구조인 특징 행렬과 타깃 벡터 구성에 자주 사용된다.matplotlib다양한 차트를 시각화할 수 있는 라이브러리이다.이 중에서도 pyplot 모듈이 가장 많이 사용된다.pandasCSV 파일 등 다양한 형식의 데이터를 불러오고, 정리 및 전처리하는 데 유용한 라이브러리이다. 데이터셋 불러오기/엔터티 생성하기데이터셋 불러오기import pandas as pddataset = pd.read_csv("Data.csv")pandas의 read_csv() 함수를 사용하면 CSV 파일을 쉽게 불러올 수 있다.이 함수는 파일의 모든 데이터를 데이터프레임..
머신러닝 기초 개념
·
Machine Learning
기본적인 과정데이터 전처리(Data Pre-Processing)데이터를 가져오고, 데이터를 정리하며, 데이터를 훈련 셋(training set)과 테스트 셋(test set)으로 나눈다.보통 데이터 셋의 20%는 테스트 셋, 80%는 트레인 셋으로 나눈다.모델링(Modeling)모델을 구축한 다음 모델을 교육하고 예측한다.평가(Evaluation)성능 지표를 계산해서 모델에 대한 평가를 내린다.모델에 잘 맞는지, 데이터에 적합한지 아닌지 등을 평가한다. 피처 스케일링(Feature Scailing)피처 스케일링은 항상 열에 적용된다.정규화와 표준화라는 두 가지 주요 항목이 있다. 정규화(Normalization)열 안의 최소 값을 가져다 열 안의 모든 값에서 최소값을 빼고, 최대값과 최소값의 차이로 나..