반응형
데이터 요약 정보 확인
▶ 데이터프레임의 크기(컬럼, 로우)
- DataFrame객체.shape
- 데이터프레임 클래스 shape 속성은 컬럼과 로우의 개수를 튜플 형태로 반환합니다.
▶ 데이터프레임의 기본 정보
- DataFrame객체.info()
- 클래스 유형, 컬럼 인덱스 구성, 컬럼 이름, 종류와 개수, 각 로우의 자료형과 개수, 메모리 할당량 정보를 포함합니다.
head(n) & tail(n)
- 데이터의 처음, 마지막 행을 n개 만큼 보여줍니다.
- 인자 값을 입력하지 않을 경우 5개의 행을 보여줍니다.
df_auto.head(10)
열이 아무리 많아도 행 하나가 데이터 하나가 됩니다.
describe()
데이터 요약 정보를 확인합니다.
- 산술(숫자) 데이터를 갖는 열에 대한 주요 기술 통계 정보(평균, 표준편차, 최대값, 최소값, 중간 값 등)를 출력합니다.
DataFrame객체.describe()
df_auto.describe()
▷ 인자값 include='all'
모든 정보를 보여줍니다.
df_auto.describe(include='all')
* 중앙값 : 이상치, 극단치를 무시하여 데이터를 출력한다. 중앙값과 평균
* mean : 평균
* std : 분산, 값이 클 수록 표준 편차가 커진다.
* n% : 데이터의 분포도.
count()
- 각 열의 데이터 개수를 확인합니다.
- 시리즈 타입으로 보여줍니다.
- 결측치를 확인 할 수 있습니다.
df_auto.count()
# mpg 398
# cylinders 398
# displacement 398
# horsepower 398
# weight 398
# acceleration 398
# model year 398
# origin 398
# name 398
value_counts()
- 컬럼 데이터의 고유값 개수를 확인합니다.
- 엑셀과 비교 했을 때 더 효율적인 작업이 가능해집니다.
- 시리즈 타입으로 반환합니다.
df_auto.value_counts()
▷ mpg 값을 확인합니다.
df_auto.mpg.value_counts()
# 13.0 20
# 14.0 19
# 18.0 17
# 15.0 16
# 26.0 14
# ..
# 31.9 1
# 16.9 1
# 18.2 1
# 22.3 1
# 44.0 1
# Name: mpg, Length: 129, dtype: int64
mean()
평균값을 구합니다.
- 산술 데이터를 갖는 모든 컬럼의 평균값을 각각 계산하여 시리즈 객체로 반환합니다.
- 데이터프레임의 특정 열을 선택하여 평균값 계산이 가능합니다.
▶ 기본 구문
df_auto.mean()
# mpg 23.514573
# cylinders 5.454774
# displacement 193.425879
# weight 2970.424623
# acceleration 15.568090
# model year 76.010050
# origin 1.572864
# dtype: float64
▶ 특정 컬럼 지정
df_auto.mpg.mean()
# 23.514572864321615
df_auto['mpg'].mean()
# 23.514572864321615
df_auto[['mpg']].mean()
# mpg 23.514573
# dtype: float64
df_auto[['mpg', 'weight']].mean()
# mpg 23.514573
# weight 2970.424623
# dtype: float64
median()
- 산술 데이터를 갖는 모든 열의 중간값을 계산하여 시리즈로 반환합니다.
- 데이터 프레임의 특정 컬럼을 선택하여 중간값을 계산 할 수 있습니다.
▶ 기본 구문
df_auto.median()
# mpg 23.0
# cylinders 4.0
# displacement 148.5
# weight 2803.5
# acceleration 15.5
# model year 76.0
# origin 1.0
# dtype: float64
▶ 특정 컬럼 지정
df_auto.mpg.median()
# 23.0
df_auto['mpg'].median()
# 23.0
df_auto[['mpg']].median()
# mpg 23.0
# dtype: float64
df_auto[['mpg', 'weight']].median()
# mpg 23.0
# weight 2803.5
# dtype: float64
max(), mix()
std()
표준편차
- 데이터프레임의 각 컬럼이 갖는 컬럼의 표준편차를 계산하여 시리즈로 반환합니다.
- 데이터프레임의 특정 열을 선책하여 계산이 가능합니다.
▶ 기본 구문
df_auto.std()
# mpg 7.815984
# cylinders 1.701004
# displacement 104.269838
# weight 846.841774
# acceleration 2.757689
# model year 3.697627
# origin 0.802055
# dtype: float64
▶ 특정 컬럼 지정
df_auto.mpg.std()
# 7.815984312565782
df_auto['mpg'].std()
# 7.815984312565782
df_auto[['mpg']].std()
# mpg 7.815984
# dtype: float64
df_auto[['mpg', 'weight']].std()
# mpg 7.815984
# weight 846.841774
# dtype: float64
corr()
상관계수
- 두 열 간의 상관계수를 계산합니다.
- 산술 데이터를 갖는 모든 열에 대해 2개씩 서루 짝을 직고, 각각의 경우에 대해 상관계수를 계산합니다.
▶ 기본 구문
df_auto.corr()
▶ 특정 두 컬럼의 상관계수
df_auto[['mpg', 'weight']].corr()
반응형
'Python' 카테고리의 다른 글
[Python] 시각화 도구 (0) | 2022.09.28 |
---|---|
[Python] pandas 내장 그래프 도구 (0) | 2022.09.27 |
[Python] Web scrapping (0) | 2022.09.27 |
[Python] Pandas (0) | 2022.09.27 |
[Python] 파일 저장 (0) | 2022.09.27 |