Welcome To

후니's Blog

Hello World
Let's Focus On
단순 선형 회귀(Simple Linear Regression)
·
Machine Learning
식$$\hat{y} = b_{0} + b_{1}X_{1}$$좌변y는 종속 변수를 의미한다.이는 우리가 예측하고자 하는 값이다.우변b0은 y 절편을 의미한다.상수항을 의미한다.b1은 기울기 계수이다.X1은 독립 변수를 의미한다. 가장 좋은 선형 회귀 선 찾기위와 같은 선형 회귀 그래프가 있다면, 어떤 것이 가장 좋은 선형 회귀 선인지 어떻게 알 수 있고 어떻게 정의할 수 있을까 ?이 질문에 대해 답을 하기 위해서는 일반적인 최소제곱법(Ordinary Least Squares = OLS)를 알아야 한다. 최소제곱법(Ordinary Least Squares)최소제곱법에 대해 이해하려면 잔차(residual)부터 알아야 한다.잔차(residual)는 실제값과 예측값 간의 차이를 의미하며, 아래 식과 같이 계..
데이터 전처리(Data Preprocessing)
·
Machine Learning
라이브러리데이터 전처리를 위해 기본적으로 사용되는 주요 라이브러리는 다음과 같다.numpy고성능 수치 계산과 배열(행렬) 연산을 위한 라이브러리이다.머신러닝 데이터 구조인 특징 행렬과 타깃 벡터 구성에 자주 사용된다.matplotlib다양한 차트를 시각화할 수 있는 라이브러리이다.이 중에서도 pyplot 모듈이 가장 많이 사용된다.pandasCSV 파일 등 다양한 형식의 데이터를 불러오고, 정리 및 전처리하는 데 유용한 라이브러리이다. 데이터셋 불러오기/엔터티 생성하기데이터셋 불러오기import pandas as pddataset = pd.read_csv("Data.csv")pandas의 read_csv() 함수를 사용하면 CSV 파일을 쉽게 불러올 수 있다.이 함수는 파일의 모든 데이터를 데이터프레임..
머신러닝 기초 개념
·
Machine Learning
기본적인 과정데이터 전처리(Data Pre-Processing)데이터를 가져오고, 데이터를 정리하며, 데이터를 훈련 셋(training set)과 테스트 셋(test set)으로 나눈다.보통 데이터 셋의 20%는 테스트 셋, 80%는 트레인 셋으로 나눈다.모델링(Modeling)모델을 구축한 다음 모델을 교육하고 예측한다.평가(Evaluation)성능 지표를 계산해서 모델에 대한 평가를 내린다.모델에 잘 맞는지, 데이터에 적합한지 아닌지 등을 평가한다. 피처 스케일링(Feature Scailing)피처 스케일링은 항상 열에 적용된다.정규화와 표준화라는 두 가지 주요 항목이 있다. 정규화(Normalization)열 안의 최소 값을 가져다 열 안의 모든 값에서 최소값을 빼고, 최대값과 최소값의 차이로 나..