[Python] 데이터 확인

Python

[Python] 데이터 확인

SangRok Jung 2022. 9. 27. 23:23

데이터 요약 정보 확인

▶ 데이터프레임의 크기(컬럼, 로우)

DataFrame객체.shape
데이터프레임 클래스 shape 속성은 컬럼과 로우의 개수를 튜플 형태로 반환합니다.

▶ 데이터프레임의 기본 정보

DataFrame객체.info()
클래스 유형, 컬럼 인덱스 구성, 컬럼 이름, 종류와 개수, 각 로우의 자료형과 개수, 메모리 할당량 정보를 포함합니다.

head(n) & tail(n)

데이터의 처음, 마지막 행을 n개 만큼 보여줍니다.
인자 값을 입력하지 않을 경우 5개의 행을 보여줍니다.

df_auto.head(10)

열이 아무리 많아도 행 하나가 데이터 하나가 됩니다.

describe()

데이터 요약 정보를 확인합니다.

산술(숫자) 데이터를 갖는 열에 대한 주요 기술 통계 정보(평균, 표준편차, 최대값, 최소값, 중간 값 등)를 출력합니다.

DataFrame객체.describe()

df_auto.describe()

▷ 인자값 include='all'

모든 정보를 보여줍니다.

df_auto.describe(include='all')

* 중앙값 : 이상치, 극단치를 무시하여 데이터를 출력한다. 중앙값과 평균

* mean : 평균

* std : 분산, 값이 클 수록 표준 편차가 커진다.

* n% : 데이터의 분포도.

count()

각 열의 데이터 개수를 확인합니다.
시리즈 타입으로 보여줍니다.
결측치를 확인 할 수 있습니다.

df_auto.count()

# mpg             398
# cylinders       398
# displacement    398
# horsepower      398
# weight          398
# acceleration    398
# model year      398
# origin          398
# name            398

value_counts()

컬럼 데이터의 고유값 개수를 확인합니다.
엑셀과 비교 했을 때 더 효율적인 작업이 가능해집니다.
시리즈 타입으로 반환합니다.

df_auto.value_counts()

▷ mpg 값을 확인합니다.

df_auto.mpg.value_counts()
# 13.0    20
# 14.0    19
# 18.0    17
# 15.0    16
# 26.0    14
#         ..
# 31.9     1
# 16.9     1
# 18.2     1
# 22.3     1
# 44.0     1
# Name: mpg, Length: 129, dtype: int64

mean()

평균값을 구합니다.

산술 데이터를 갖는 모든 컬럼의 평균값을 각각 계산하여 시리즈 객체로 반환합니다.
데이터프레임의 특정 열을 선택하여 평균값 계산이 가능합니다.

▶ 기본 구문

df_auto.mean()
# mpg               23.514573
# cylinders          5.454774
# displacement     193.425879
# weight          2970.424623
# acceleration      15.568090
# model year        76.010050
# origin             1.572864
# dtype: float64

▶ 특정 컬럼 지정

df_auto.mpg.mean()
# 23.514572864321615

df_auto['mpg'].mean()
# 23.514572864321615

df_auto[['mpg']].mean()
# mpg    23.514573
# dtype: float64

df_auto[['mpg', 'weight']].mean()
# mpg         23.514573
# weight    2970.424623
# dtype: float64

median()

산술 데이터를 갖는 모든 열의 중간값을 계산하여 시리즈로 반환합니다.
데이터 프레임의 특정 컬럼을 선택하여 중간값을 계산 할 수 있습니다.

▶ 기본 구문

df_auto.median()

# mpg               23.0
# cylinders          4.0
# displacement     148.5
# weight          2803.5
# acceleration      15.5
# model year        76.0
# origin             1.0
# dtype: float64

▶ 특정 컬럼 지정

df_auto.mpg.median()
# 23.0

df_auto['mpg'].median()
# 23.0

df_auto[['mpg']].median()
# mpg    23.0
# dtype: float64

df_auto[['mpg', 'weight']].median()
# mpg         23.0
# weight    2803.5
# dtype: float64

max(), mix()

std()

표준편차

데이터프레임의 각 컬럼이 갖는 컬럼의 표준편차를 계산하여 시리즈로 반환합니다.
데이터프레임의 특정 열을 선책하여 계산이 가능합니다.

▶ 기본 구문

df_auto.std()

# mpg               7.815984
# cylinders         1.701004
# displacement    104.269838
# weight          846.841774
# acceleration      2.757689
# model year        3.697627
# origin            0.802055
# dtype: float64

▶ 특정 컬럼 지정

df_auto.mpg.std()
# 7.815984312565782

df_auto['mpg'].std()
# 7.815984312565782

df_auto[['mpg']].std()
# mpg    7.815984
# dtype: float64

df_auto[['mpg', 'weight']].std()
# mpg         7.815984
# weight    846.841774
# dtype: float64

corr()

상관계수

두 열 간의 상관계수를 계산합니다.
산술 데이터를 갖는 모든 열에 대해 2개씩 서루 짝을 직고, 각각의 경우에 대해 상관계수를 계산합니다.

▶ 기본 구문

df_auto.corr()

▶ 특정 두 컬럼의 상관계수

df_auto[['mpg', 'weight']].corr()

'Python' 카테고리의 다른 글

[Python] 시각화 도구 (0)	2022.09.28
[Python] pandas 내장 그래프 도구 (0)	2022.09.27
[Python] Web scrapping (0)	2022.09.27
[Python] Pandas (0)	2022.09.27
[Python] 파일 저장 (0)	2022.09.27

현재글[Python] 데이터 확인

꾸준함이 말미암아

[Python] 데이터 확인

데이터 요약 정보 확인

head(n) & tail(n)

열이 아무리 많아도 행 하나가 데이터 하나가 됩니다.

describe()

count()

value_counts()

mean()

median()

max(), mix()

std()

corr()

'Python' 카테고리의 다른 글

'Python'의 다른글

티스토리툴바

[Python] 데이터 확인

데이터 요약 정보 확인

head(n) & tail(n)

열이 아무리 많아도 행 하나가 데이터 하나가 됩니다.

describe()

count()

value_counts()

mean()

median()

max(), mix()

std()

corr()

'Python' 카테고리의 다른 글

'Python'의 다른글

관련글

티스토리툴바