목록Python (9)
project:eve
데이터프레임에서 한 컬럼만 잘라 또다른 데이터프레임으로 만드려는 중에 도저히 이해가 안 가는 것이 있어 기록해둔다. import pandas as pd import numpy as np m = pd.read_csv('/Users/eve/Downloads/jupyter notebook/files/mushrooms.csv') m['class_2'] = np.where(m['class']=='p', 1, 0) m_int = pd.DataFrame(m['class_2'], columns=['col']) m_int 위에 말 그대로 한 컬럼만 데이터프레임으로 만들어 저장하려고 했는데, 이렇게 하면 저장이 안된다. 왜지???? 입력데이터 시리즈이고, 컬럼명 정해줬으면 들어가야 되잖아.. 그럼 시리즈 형식 자체가 안되..
이번 글은 회귀 방식 중에서 [단순선형회귀]에 대해 알아보려고 해요. 단순선형회귀란? 하나의 독립변수에 대해 종속변수의 값 변화를 예측하는 방법입니다. 우선 선형회귀에 대해 알아야 하는데요. 선형회귀는 독립변수의 변동량에 따른 종속변수의 변동량이 일정한 선을 그리는 것을 말합니다. 짧게 말하면 독립변수를 입력하는 특정한 선형 함수를 만들어 예측을 하는 방법입니다. 그 중에서도 단순선형회귀는 종속변수가 1개인 방정식의 선형 함수를 말합니다. 즉 y=ax+b의 형태를 가지는 1차함수입니다! 예를 들어 나이에 따른 의료값 변화에 대해 단순선형회귀를 적용하면 이런 식을 세울 수 있습니다 y= a*나이 + b 통계에서는 기울기 a를 가중치, b를 절편이라고 부르며 이 값을 알아내 x와 y 사이의 인과관계를 파악하..
오늘은 공공데이터 포털에서 제공하는 데이터를 대상으로 분석하고 시각화하는 일을 해보려고 합니다! 공공데이터 포털은 국가기관에서 공무 중 나오는 자료들을 공공에 제공하는 사이트인데요. 데이터 진흥원 등에서 이를 가지고 데이콘을 열거나 개인이 분석하고 인사이트를 발견하여 자신의 스펙으로 삼을 수 있어요. 글을 보시는 분들도 이 사이트를 모르셨다면 한번 꼭 접속해보셔서 분석을 해보면 좋을 것 같아요! 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr 이 글에서 사용할 자료는 2013년부터 2019년까지의 전국 신규 임대 아파..
오늘은 결측치를 보간하는 방법에 대해 알아보려고 해요. 결측치란 데이터 자료에 일부분이 누락되어서 값이 없는 부분을 말해요. 예를 들어 1학년 4반의 키 평균을 구하고 싶은데 신체 정보 자료에 한 명의 키 정보가 Null값이라면 평균을 제대로 구할 수 없겠죠? 그 한 명을 무시하고 구하더라도 결과값이 완전하지 않기 때문에 신뢰성을 가지기도 어려워요. 그렇기 때문에 분석 결과가 인정받으려면 바탕이 되는 자료가 완전한 상태에서 분석이 행해져야 합니다. 이제 결측치는 알겠고 보간한다는 말은 뜻이 뭘까요? 저도 항상 구글에서 검색할 때 '결측치 보간' 이라는 문장을 많이 들어서 따라서 많이 썼었는데, 이번에 글로 정리하면서 정확하게 알아봤어요. 사전에서 찾아본 결과 문맥상 특정 값은 알수 없으나 다른 주변 값들..
저번 시간에 소개했던 상관분석에 이어 R을 이용해 회귀분석을 하는 과정을 소개해드리려고 해요. 상관분석은 회귀분석과 연관이 있는 부분이기 때문에 잘 모르시는 분들은 아래 링크를 통해 참고해 주세요! 2022.12.30 - [Python] - 파이썬을 이용한 통계자료 분석 : 상관분석 회귀분석이란? 종속변수의 변화 상태를 다른 독립변수로 설명하는 방법입니다. 즉 종속변수와 독립변수간의 인과 관계에 주목하며 독립변수가 종속변수의 변화에 얼마나 영향을 미치는지 알아낼 수 있습니다. 또 상관분석과 달리 분석한 결과로 수식을 세울 수 있습니다. 회귀분석을 진행하기 위해 먼저 자료를 가져올게요. 이전에 상관분석에서 사용했던 health.csv 자료를 동일하게 사용하겠습니다. **혹 데이터를 직접 받아 실습해보고 싶..
오늘은 R을 이용해 상관분석을 하는 과정을 소개해드리려고 해요. 상관분석이란? 두 연속형의 변수 그룹 간 선형 관계를 측정하는 방법입니다. 결과값이 +1이면 그룹1의 값이 증가하면 그룹2의 값도 증가하고, -1이면 반대로 감소합니다. 그리고 값이 0이면 선형관계는 존재하지 않고 각 그룹이 독립성을 가집니다. 분석에 필요한 자료를 가져와 살펴볼게요. 자료는 헬스클럽에서 운동하는 사람들에 대한 자료를 대상으로 했습니다. 혹여 동일한 데이터로 실습하실 분들은 아래에 첨부한 파일을 다운로드 해주세요! import numpy as np import pandas as pd import scipy.stats as st import matplotlib.pyplot as plt import seaborn as sns h..
이 글에서는 파이썬의 그래프 라이브러리인 matplotlib을 이용해 기본적인 그래프를 그려보려고 해요. 그래프 그리기는 크게 [도화지 그리기 -> 그래프 구역을 정하기 -> 원하는 수식이 담긴 그래프 넣기] 의 순서로 이루어지는데요. 여기에서 그래프를 그리는 방법을 익힌 후 실질적으로 데이터를 적절한 그래프 모형으로 표현하면 좋을 것 같아요. 1. plt.figure() : 도화지 그리기 괄호를 비워도 기본값 사이즈로 동작하며 figsize 속성을 추가해서 도화지 사이즈를 설정할 수 있어요. fig = plt.figure(figsize=(10, 6)) plt.show() 2. plt.subplot() : 도화지를 일정 구역으로 나누어 그래프 그리기 괄호 안에 행의 수, 열의 수, n번째 수를 입력해 행..
오늘은 파이썬을 이용해 데이터의 가정을 검증하는 과정을 소개해드리려고 해요. 가정 검정이란? 모든 분산분석을 하는데 있어서 지켜야 할 3가지 기본적인 가정으로 정규성, 등분산성, 독립성 가정에 대한 검정을 의미해요. 데이터를 가지고 모형에 적합시키고 예측하는 과정에 있어서 타당성을 인정받기 위해서 반드시 거쳐야 할 부분이에요. 그러면 아래에서 하나씩 살펴보도록 하겠습니다. 정규성 가정 : 데이터 분포가 정규분포와 유사함(shapiro-test) 먼저 필요한 라이브러리와 데이터를 import하겠습니다 import pandas as pd import scipy.stats cotton = pd.read_csv('/Users/eve/Downloads/rpy/cotton.csv') 그룹변수인 pct의 각각의 값에..