반응형

Python 88

[Python] DataFrame

DataFrame ▶ 라이브러리를 불러옵니다. import numpy as np import pandas as pd ▶ DataFrame 생성 데이터 프레임명 = pd.DataFrame() df1 = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']], index=['준서', '예은'], columns=['나이', '성별', '학교']) ▷ index, column 수정 df1.index = ['학생1','학생2'] df1.columns = ['연령','남녀','소속'] ▶ 사전형 데이터를 불러와 DataFrame 생성 exam_data = {'이름':['서준','우현','인아'], '수학':[90,80,70], '영어':[98,89,95], '음악':[85,95,1..

Python 2022.10.06

[Python] Function Mapping

Function Mapping (함수 매핑) 시리즈 또는 데이터 프레임의 개별 원소를 특정 함수에 1:1 대응시키는 과정 사용자가 직접 만든 함수를 적용. 판다스 기본 함수로 처리하기 어려운 복잡한 연산을 처리. ▷ apply() VS applymap() applymap() 은 시리즈 객체를 사용할 수 없습니다. 다수의 컬럼의 원소를 처리 할 때 applymap()이 빠르나 체감할 정도는 아닙니다. 시리즈 객체의 데이터를 처리 할 때 apply()를 사용 할 수 있습니다. * apply() 사용을 권장합니다. ▶ 새로운 데이터 프레임을 생성합니다. titanic2 = titanic.loc[:, ['age', 'fare']] titanic2['ten'] = 10 ▶ 함수를 생성합니다. add_10 = la..

Python 2022.10.06

[Python] TimeSeries

TimeSiries (시계열 데이터) 시계열 데이터를 다루는 여러 가지 유용한 기능을 제공합니다. 시계열 데이터를 데이터 프레임의 행 인덱스로 사용하면 시간으로 기록된 데이터 분석에 매우 편리합니다. 판다스 시간 표시 방식 중 시계열 데이터 표현에 자주 이용되는 두가지 유형 특정한 시점을 기록하는 "Timestamp" 두 시점 사이의 일정한 기간을 나타내는 "Period" * 판다스는 주식, 환율 등 금율데이터를 다루기 위해 개발 되었으며 미국에서는 1980-90년대 부터 판다스를 사용하고 있었지만 한국에서는 일부 대기업에서만 사용중입니다. ▶ 다른 자료형을 시계열 객체로 변환합니다. ▷ 파일을 불러옵니다. df_stock = pd.read_csv('./stock-data.csv') ▷ 기존의 문자열 컬..

Python 2022.10.06

[Python] 정규화

정규화 각 컬럼에 속하는 데이터 값을 동일한 크기 기준으로 나눈 비율로 나타냅니다. 정규화 과정을 거친 데이터의 범위는 0~1 또는 -1~1 입니다. 각 변수(컬럼)에 들어 있는 수자 데이터의 상대적 크기 차이 때문에 머신러닝(회귀) 분석 결과가 달라져 숫자 데이터의 상대적인 크기 차이 제거가 필요합니다. EX) A변수는 0~1000범위, B변수는 0~1범위 값을 가질 때 한 쪽 변수의 영향이 더 커질 수 있습니다. ▶ 방법 1 각 컬럼의 데이터를 해당 컬럼의 최대값으로 나눕니다. # 정규화 방법 1 hp_max = df_auto.horsepower.max() (df_auto.horsepower / hp_max) # 0.2 ~ 1 ▶ 방법2 각 변수의 데이터 중 최대값과 최소값을 뺀 값으로 나눕니다. #..

Python 2022.10.06

[Python] 데이터 사전처리

데이터 사전처리 ▶ 누락 데이터 처리 데이터 프레임에는 원소 데이터 값이 누락되는 경우가 발생합니다. 데이터를 입력할 때 빠트리거나 파일 형식을 변환하는 과정에서 데이터가 소실되는 것이 주요 원인입니다. 일바반적으로 유효한 데이터 값이 존재하지 않는 누락 데이터를 NaN(Not a Number)으로 표시합니다. 머신러닝 모델에 데이터 입력 전 반드시 누락 데이터 제거 혹은 다른 적절한 값으로 대체하는 과정이 필요합니다. 누락 데이터가 많아지면 데이터의 품질이 떨어지고 머신러닝 분식 알고리즘을 왜곡하는 현상이 발생합니다. ▶ 데이터를 불러옵니다. import pandas as pd import seaborn as sns df = sns.load_dataset('titanic') ▶ nan값을 확인합니다. ..

Python 2022.10.01

[Python] Seaborn

Seaborn Seaborn은 Matplotlib의 기능과 스타일을 확장한 파이썬 시각화 도구의 고급 버전입니다. 비교적 단순한 인터페이스의 제공으로 초심자에게도 어렵지 않습니다. Anaconda 설치시 함께 설치됩니다. ▶ 불러오기 import seaborn as sns ▶ 그래프 생성 fig = plt.figure(figsize=(15,5)) ax1 = fig.add_subplot(1,2,1) ax2 = fig.add_subplot(1,2,2) sns.regplot(x='age', y='fare', data=titanic, ax=ax1, order=2) # order : 다항회귀 sns.regplot(x='age', y='fare', data=titanic, ax=ax2, fit_reg=False) ..

Python 2022.10.01

[Python] Boxplot

Boxplot 범주형 데이터의 분포 파악에 적합합니다. 5개의 통계 지표를 제공합니다. 최소값 1분위값 중간값 3분위 값 최대값 ▶ 각각의 국가별 mpg를 한 차트로 불러옵니다. fig = plt.figure(figsize=(20,10)) ax1 = fig.add_subplot(1, 2, 1) ax2 = fig.add_subplot(1, 2, 2) mpg_1 = df_auto.loc[df_auto.origin == 1, 'mpg'] mpg_2 = df_auto.loc[df_auto.origin == 2, 'mpg'] mpg_3 = df_auto.loc[df_auto.origin == 3, 'mpg'] ax1.boxplot(x = [mpg_1, mpg_2, mpg_3], labels=['USA', 'EU'..

Python 2022.09.30

[Python] Pie

Pie ▷ 생성문 DataFrame.plot(kind='pie') ▶ 데이터를 불러옵니다. df_origin = df_auto.origin.value_counts() ▶ 데이터의 인덱스명을 변경합니다. df_origin.rename({1:'USA', 2:"EU", 3:"JAPAN"}, inplace=True) ▶ 파이 차트를 생성합니다. startangle : 각도를 변경합니다. autopct : 부채꼴 안에 표시될 확률의 형식을 설정합니다. df_origin.plot(kind='pie', figsize=(7,4), autopct="%1.2f%%", startangle=90, colors=['Khaki', 'Crimson', 'CadetBlue']) plt.title("Model Origin", font..

Python 2022.09.30
반응형