목록전체 글 (27)
project:eve
Studying here🏠디벙크 합정 길고 길었던 머신러닝을 끝내고 이제 통계분석을 시작한다. 이것도 마찬가지로 현재 공부하는 책 기준으로 비슷한 페이지량이다. 하지만 머신러닝과 겹치는 부분도 있고(선형회귀) 새로운 개념은 머신러닝보다는 적어서 최대한 빨리 끝내는 것을 목표로 하고 있다. 얼른 끝내고 심화 책으로 넘어가자!! 통계 분석과 t-test 1. 통계는 [어떤 집단, 조사나 실험, 결과 요약]으로 말할 수 있겠다. 통계 분석은 이 요약된 결과를 분석해 새로운 사실을 도출해내는 거라고 생각하면 좋을 것 같다. 2. 통계의 기본적인 개념을 같이 알아봤다. 1) 가설 귀무가설 : 기존의 주장 대립가설 : 실험으로 하고자 하는 새로운 주장 2) 검정 : 어느 가설이 옳은지 판단하는 행위 양측검정 - 귀..
Studying here🏠스타벅스 더종로R점 나이브베이즈(naive-bayes) 나이브 베이즈는 베이즈 정리를 기반으로 하는 분석 모델. 전체의 확률 분포 대비 특정 클래스에 속할 확률을 정리함. 예를 들어 메일의 스팸 기준을 판정한다면, 스팸메일에 복권이라는 단어가 들어있을 확률을 안다면 스팸메일에 복권이라는 단어가 들어있을 때 스팸메일일 확률을 구할 수 있는 것이다. 간단하고 빠르기 때문에 추정 확률을 쉽게 구할 수 있다. 단점은 모든 독립변수의 상관성을 무시하기 때문에 결과가 왜곡될 수 있다. 데이터가 적을 때나 미래를 예측할 때 자주 사용한다. 1) 베이즈 정리 사건 A, B가 있을 때, B가 일어난 뒤에 A가 일어난 확률을 구한다. 그런데 지금 알고 있는 것은 A, B가 각각 일어날 확률, A가..
Studying here🏠맥심플랜트 한남 머신러닝을 거의 다 공부해간다. 남은 건 앙상블과 나이브 베이즈, 앙상블은 더 뭔가 본격적인 머신러닝 같아서 공부가 끝나가는 성취감 + 머신러닝의 세계에 흠뻑 빠져들어가는 것 같아서 즐겁다. 그러므로 오늘도 기분 좋게 글을 써보자. 앙상블(Ensemble) 앙상블은 분석에 필요한 데이터를 여러 번 사용하거나 여러 분석 모델을 사용하는 기법이다. 즉 하나의 분석 데이터에 여러 분석 모델을 적용하거나 여러 개의 분석 데이터에 하나의 분석 모델을 적용해서 도출된 결과들을 종합, 하나의 강력한 모델을 만드는 것이다. 그러므로 일반적으로 단일 분석 모델을 사용하는 것보다 성능이 뛰어나고 데이터 분석 콘테스트에서도 상위권에 대부분 앙상블 기법을 사용한 모델이 있다고 한다. ..
Studying here🏠콘하스 연희점 7번째 분석 모델인 의사결정나무이다. 이제 머신러닝 파트는 반 정도 배운 것 같다...(책 기준) 조금만 더 열심히 해보자!! 1) 정의 : 데이터를 분리하는 규칙을 세워 학습하고 그 규칙에 따라 예측하는 모형 - 특징 : 시각화하기 간편하다. 전처리를 안 해도 된다 / 성능이 안 좋다.... 2) 종류와 분리 기준 1- 분류 : 카이제곱 통계량 p값, 지니지수, 엔트로피지수 2- 회귀 : 분산분석 F통계량, 분산의 감소량 3) 코드 1- 분류 : 독일 신용 데이터로 분석을 해보려고 한다. 출처 : ( https://archive-beta.ics.uci.edu/dataset/144/statlog+german+credit+data) 데이터를 가져와 결측치가 있는지 살..
Studying here🏠테라로사 광화문점 오늘은 K-nearest neighbor(K-최근접 이웃)을 공부하려고 한다. 직전에 SVM 공부할 때 너무 어려웠어서 이번에는 좀 나아졌길 바란다ㅠ 1) 정의 학습 데이터의 분포를 그대로 저장한 뒤, 검증 데이터 포인트의 클래스를 판단할 때 주변의 k개의 가장 가까운 데이터의 클래스에 의해 결정한다. 비선형 데이터에서 높은 예측 성능을 보인다고 한다. 2) 종류 1-분류 : 분류 방식은 위의 산포도 그래프와 똑같다. 그래프의 한 점에서 '가장 가까운 거리'의 k개의 데이터 클래스를 보고 한 점의 클래스를 예측한다. *)가장 가까운 거리를 구하는 방법 - 독립변수가 범주형일 경우 : 해밍 거리를 사용한다 - 독립변수가 연속형일 경우 : 유클리드, 맨하탄 거리를 ..
데이터프레임에서 한 컬럼만 잘라 또다른 데이터프레임으로 만드려는 중에 도저히 이해가 안 가는 것이 있어 기록해둔다. import pandas as pd import numpy as np m = pd.read_csv('/Users/eve/Downloads/jupyter notebook/files/mushrooms.csv') m['class_2'] = np.where(m['class']=='p', 1, 0) m_int = pd.DataFrame(m['class_2'], columns=['col']) m_int 위에 말 그대로 한 컬럼만 데이터프레임으로 만들어 저장하려고 했는데, 이렇게 하면 저장이 안된다. 왜지???? 입력데이터 시리즈이고, 컬럼명 정해줬으면 들어가야 되잖아.. 그럼 시리즈 형식 자체가 안되..
Studying here🏠 스타벅스 서울대입구역점 ADP를 준비하면서 데이터 분석을 본격적으로 공부한지 한달이 다 되어 가는 것 같다. 처음에는 새로운 개념 천지여서 고생스러웠는데 요즘은 개념들을 지그시 보고 있으면 금방금방 아하 이런거군 하고 넘어가게 되서 공부하는 게 조금 재미있다. 여전히 본 적도 없는 기호들이 춤추는 통계식은 어렵지만.. 그래도 열심히 공부해서 3월에 바로 합격하는 기대를 조금 걸어본다 ㅎㅎ 이번 글에서는 서포트 벡터 머신을 공부하려고 한다. 1) 정의 SVM(서포트 벡터 머신)이란?? 새로운 데이터가 입력되었을 때 기존 데이터를 활용해 분류하는 방법이다. 다른 분석 방법에는 없는 유래가 있는데, 처음 시작은 최대 마진 분류기 -> 성능을 강화한 SVC(Classifier) -> ..
Studying here🏠 코사이어티 서울숲 1) 정의 종속변수가 범주형인 경우 사용하는 회귀 방법. 샘플이 특정 종속변수에 속할 확률을 추정한다! 예를 들어 카드 대금을 연체할지(r) 또는 입금할 확률(1-r)을 구하는 것이다. 그러므로 기존의 선형 회귀 함수와 다르게 X값을 대입했을 때 0~1 값이 나오도록 하는 새로운 함수식이 필요하고, 주로 로지스틱 함수나 시그모이드 함수를 사용한다. 2) 승산비 책에는 '실패할 확률에 비해 성공할 확률' 이라고 나와 있는데 표현이 좀 어렵다.. 간단하게 성공할 확률이 p라고 하면 p/(1-p)이다. 만약 고객이 카드 대금을 납입할 확률이 1/3, 연체할 확률이 2/3이라면 연체 odds는 1/2가 된다. 그리고 이 값은 '고객이 2번 완납(성공)을 하고 1번 연..