23.01.31 KNN 최근접 이웃

Notice

Recent Posts

Recent Comments

Link

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

project:eve

23.01.31 KNN 최근접 이웃 본문

Daily

23.01.31 KNN 최근접 이웃

eveee 2023. 1. 31. 00:38

Studying here🏠테라로사 광화문점

오늘은 K-nearest neighbor(K-최근접 이웃)을 공부하려고 한다. 직전에 SVM 공부할 때 너무 어려웠어서 이번에는 좀 나아졌길 바란다ㅠ

1) 정의

학습 데이터의 분포를 그대로 저장한 뒤, 검증 데이터 포인트의 클래스를 판단할 때 주변의 k개의 가장 가까운 데이터의 클래스에 의해 결정한다. 비선형 데이터에서 높은 예측 성능을 보인다고 한다.

2) 종류

1-분류 : 분류 방식은 위의 산포도 그래프와 똑같다. 그래프의 한 점에서 '가장 가까운 거리'의 k개의 데이터 클래스를 보고 한 점의 클래스를 예측한다.

*)가장 가까운 거리를 구하는 방법

- 독립변수가 범주형일 경우 : 해밍 거리를 사용한다

- 독립변수가 연속형일 경우 : 유클리드, 맨하탄 거리를 사용한다.

*) 주로 사용하는 속성

n_neighbors : 이웃의 수
weights : 이웃별 가중치. uniform은 모든 이웃을 거리에 상관없이 같은 계산, distance는 이웃별 거리에 따라 가중치 부여
metric&p : 거리 계산 공식과 계수. 기본값은 minkowski와 2로, 민코우스키 거리공식의 계수가 2일때 유클리드 거리와 같으므로 기본값은 유클리드 거리를 사용한다고 할 수 있다.

1- 회귀 : 검증 데이터의 독립변수(x)와 가장 가까운 k개의 데이터로 클래스를 판별한다. 다른 선형회귀와 다르게 회귀식이 정해져 있지 않고 회귀계수도 없다는 것이 특징!

3) 코드

1-분류 : 인도 간질환자에 대한 분류 데이터를 가져와 분석해보았다. 종속변수는 Dataset.

(데이터 출처 : https://www.kaggle.com/datasets/uciml/indian-liver-patient-records)

먼저 데이터에 결측치가 없는지 확인해보자.

import pandas as pd
import numpy as np

data = pd.read_csv('/Users/eve/Downloads/jupyter notebook/files/indian_liver_patient.csv')

print(data.info())
print(data.head(5))

Albumin_and_Globulin_Ratio(총단백질이라고 한다)에 결측치가 4개 빠져있는 것을 알 수 있다.

총 데이터에 비해 적은 부분을 차지하니 지워버리는 방법도 있지만 나머지 데이터의 평균치로 대체했다.

col_mean = round(data['Albumin_and_Globulin_Ratio'].mean(), 2)

#다른 방법
#data.loc[data['Albumin_and_Globulin_Ratio'].isna()==True, :]['Albumin_and_Globulin_Ratio'] = col_mean


data['Albumin_and_Globulin_Ratio']=data['Albumin_and_Globulin_Ratio'].fillna(col_mean)

또한 독립변수 중 Gender의 데이터 형식이 object이므로 원핫인코딩을 해준다.

(* 문자형 데이터가 있을 때 fit하면 에러가 발생하기 때문이다. 왜 에러가 발생하는지 구글에 한참 찾아봤는데도 안 나온다. 사람들은 안 궁금한가..? 아님 내가 너무 초보적인 내용을 몰라서 찾고 있어서 안 나오나..??)

아무튼 KNN분류기에서는 독립변수는 모두 수치형 변수여야만 한다. 근데 종속변수는 문자형이어도 괜찮으니 참고.

- could not convert string to float: 'Male'

⬇️이렇게

data['Gender'] = np.where(data['Gender']=='Female', 1, 0)

또는 라이브러리를 사용해 원핫인코딩을 해주자. 다음 분석할 때 np.where를 사용한 데이터랑 이거랑 차이를 비교해보는 것도 좋겠다.

# ohe를 사용해 원핫인코딩

from sklearn.preprocessing import OneHotEncoder

ohe = OneHotEncoder(sparse=False)

data_cat = ohe.fit_transform(data[['Gender']])

cat_Gender = pd.DataFrame(data_encoded, columns=['cat_'+ cat for cat in ohe.categories_[0]])

data_concated = pd.concat([data, cat_Gender], axis=1).drop(columns=['Gender'])

data_concated

마지막 열이었던 dataset 뒤에 만들고 기존 열이었던 Gender는 지웠다

테스트 데이터를 2개로 나누었다. X는 문자형 데이터를 np.where로 바꾼 데이터, X_2는 ohe로 바꾼 데이터.

from sklearn.model_selection import train_test_split

X = data.drop(columns=['Dataset'])
y = data['Dataset']

X_2 = data_concated.drop(columns=['Dataset'])



train_x, test_x, train_y, test_y = train_test_split(X, y, train_size=0.7, random_state=1,
                                                   stratify=y)

train_x_ohe, test_x_ohe, train_y_ohe, test_y_ohe = train_test_split(X_2, y, train_size=0.7, random_state=1,
                                                   stratify=y)

데이터 훈련과 예측도 각각. n_neighbors 값은 3으로 설정했다.

from sklearn.neighbors import KNeighborsClassifier

clf = KNeighborsClassifier(n_neighbors=3)

clf.fit(train_x, train_y)

pred = clf.predict(test_x)


clf = KNeighborsClassifier(n_neighbors=3)

clf.fit(train_x_ohe, train_y_ohe)

pred_ohe = clf.predict(test_x_ohe)

그리고 성능 평가. 이렇게 일일이 노가다하는 것보다 for문을 만들었으면 좋았을텐데..

from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score

liver_cm = confusion_matrix(test_y, pred)
liver_acc = round(accuracy_score(test_y, pred), 3)
liver_prc = round(precision_score(test_y, pred), 3)
liver_rc = recall_score(test_y, pred)
liver_f1 = round(f1_score(test_y, pred), 3)

liver_cm_ohe = confusion_matrix(test_y, pred_ohe)
liver_acc_ohe = round(accuracy_score(test_y, pred_ohe), 3)
liver_prc_ohe = round(precision_score(test_y, pred_ohe), 3)
liver_rc_ohe = recall_score(test_y, pred_ohe)
liver_f1_ohe = round(f1_score(test_y, pred_ohe), 3)

print('confusion matrix : ')
print(liver_cm, liver_cm_ohe, '\n')
print('acc score : ', liver_acc, liver_acc_ohe)
print('prc score : ', liver_prc, liver_prc_ohe)
print('rc score : ', liver_rc, liver_rc_ohe)
print('f1 score : ', liver_f1, liver_f1_ohe)

고생하면서 두 값을 구해서 비교해봤는데 똑같다.. 이럴거면 그냥 np.where가 훨씬 낫지 왜 ohe를 쓸까? 뭔가 장점이 있을텐데, 그건 나중에 알아봐야겠다.(이진분류가 아닌 범주형 변수값에 효율이 좋을지도 모른다)

2-회귀

이번에는 KNN으로 회귀분석을 해보자. 이번에 사용할 데이터는 인사팀 데이터셋입니다. 직원들의 이름부터 봉급, 결혼 여부, 부서, 휴가일수, 프로젝트 경험 등 여러가지 정보가 있는 데이터인데, 여기에서 종속변수를 봉급으로 지정해서 회귀 분석을 해보려고 한다.

hr = pd.read_csv('/Users/eve/Downloads/jupyter notebook/files/regression/HRdataset.csv')

hr.info()

독립변수는 어느 정도 관련이 있어 보이는 것을 가져왔다. (법적)결혼 여부, (사실)혼인 여부, 성별 등등. 데이터를 선정한 다음에는 훈련/검증 데이터를 분리한다.

hr_1 = hr[['MarriedID', 'MaritalStatusID', 'GenderID', 'EmpStatusID', 'DeptID', 'PerfScoreID', 'FromDiversityJobFairID', 'EngagementSurvey', 'EmpSatisfaction', 'SpecialProjectsCount', 'Absences', 'Salary']]

X = hr_1.drop(columns=['Salary'])
y = hr_1['Salary']

from sklearn.model_selection import train_test_split

train_x, test_x, train_y, test_y = train_test_split(X, y, train_size=0.7, random_state=1)

회귀함수를 선언하고 k값을 3, 5 두 개로 나누어 테스트해보기로 한다. for문 안에서 가까운 거리의 이웃이 3인 함수와 5인 함수에 의해 예측된 값을 실제 값과 오차를 계산한 뒤 비교해 보자.

from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error

preds = ['reg_3', 'reg_5']
knum = [3, 5]

result = pd.DataFrame(columns=['preds', 'mae', 'mse', 'rmse'])

result['preds'] = preds


for k, name in zip(knum, preds):
    reg = KNeighborsRegressor(n_neighbors=k)
    
    reg.fit(train_x, train_y)
    pred = reg.predict(test_x)
    
    mae = round(mean_absolute_error(test_y, pred), 2)
    mse = round(mean_squared_error(test_y, pred))
    rmse = np.sqrt(mse)
    
    result.loc[result['preds']==name, 'mae'] = mae
    result.loc[result['preds']==name, 'mse'] = mse
    result.loc[result['preds']==name, 'rmse'] = rmse

오차 값이 좀 크다..? 봉급을 정규화하지 않고 그대로 넣었더니 이렇게 알아보기 힘든 것 같다. 정규화를 한 뒤에 분석을 해보면 깔끔하게 차이를 알 것 같다. 어쨌든 지금 결과를 보면 k값이 5일 때 분석 결과가 더 좋은 것 같다.

'Daily' 카테고리의 다른 글

23.02.05 앙상블 (0)	2023.02.05
23.02.04 의사결정나무 (0)	2023.02.04
23.01.28 SVM 서포트 벡터 머신 (0)	2023.01.29
23.01.28 Logistic Regression로지스틱 회귀 (0)	2023.01.29
23.01.27 Lasso, Elasticnet 라쏘, 엘라스틱넷 (0)	2023.01.28

'Daily' Related Articles

project:eve

23.01.31 KNN 최근접 이웃 본문

23.01.31 KNN 최근접 이웃

'Daily' 카테고리의 다른 글

티스토리툴바