Python

[Python] 데이터 확인

SangRok Jung 2022. 9. 27. 23:23
반응형

데이터 요약 정보 확인


▶ 데이터프레임의 크기(컬럼, 로우)

  • DataFrame객체.shape
  • 데이터프레임 클래스 shape 속성은 컬럼과 로우의 개수를 튜플 형태로 반환합니다.

 

▶ 데이터프레임의 기본 정보

  • DataFrame객체.info()
  • 클래스 유형, 컬럼 인덱스 구성, 컬럼 이름, 종류와 개수, 각 로우의 자료형과 개수, 메모리 할당량 정보를 포함합니다.

 

 

 

 

 

head(n) & tail(n)


  • 데이터의 처음, 마지막 행을 n개 만큼 보여줍니다.
  • 인자 값을 입력하지 않을 경우 5개의 행을 보여줍니다.
df_auto.head(10)

 

 

처음10 개의 행을 보여줍니다.

열이 아무리 많아도 행 하나가 데이터 하나가 됩니다.

 

 

 

 

 

describe()


데이터 요약 정보를 확인합니다.

  • 산술(숫자) 데이터를 갖는 열에 대한 주요 기술 통계 정보(평균, 표준편차, 최대값, 최소값, 중간 값 등)를 출력합니다.

 

DataFrame객체.describe()
df_auto.describe()

 

 

▷ 인자값 include='all'

 

모든 정보를 보여줍니다.

df_auto.describe(include='all')

* 중앙값 : 이상치, 극단치를 무시하여 데이터를 출력한다. 중앙값과 평균

* mean : 평균

* std : 분산, 값이 클 수록 표준 편차가 커진다.

* n% : 데이터의 분포도.

 

 

 

 

 

 

count()


  • 각 열의 데이터 개수를 확인합니다.
  • 시리즈 타입으로 보여줍니다.
  • 결측치를 확인 할 수 있습니다.

 

df_auto.count()

# mpg             398
# cylinders       398
# displacement    398
# horsepower      398
# weight          398
# acceleration    398
# model year      398
# origin          398
# name            398

 

 

 

 

value_counts()


  • 컬럼 데이터의 고유값 개수를 확인합니다.
  • 엑셀과 비교 했을 때 더 효율적인 작업이 가능해집니다.
  • 시리즈 타입으로 반환합니다.

 

df_auto.value_counts()

 

 

▷ mpg 값을 확인합니다.

df_auto.mpg.value_counts()
# 13.0    20
# 14.0    19
# 18.0    17
# 15.0    16
# 26.0    14
#         ..
# 31.9     1
# 16.9     1
# 18.2     1
# 22.3     1
# 44.0     1
# Name: mpg, Length: 129, dtype: int64

 

 

 

 

 

mean()


평균값을 구합니다.

  • 산술 데이터를 갖는 모든 컬럼의 평균값을 각각 계산하여 시리즈 객체로 반환합니다.
  • 데이터프레임의 특정 열을 선택하여 평균값 계산이 가능합니다.

 

▶ 기본 구문

df_auto.mean()
# mpg               23.514573
# cylinders          5.454774
# displacement     193.425879
# weight          2970.424623
# acceleration      15.568090
# model year        76.010050
# origin             1.572864
# dtype: float64

 

▶ 특정 컬럼 지정

df_auto.mpg.mean()
# 23.514572864321615

df_auto['mpg'].mean()
# 23.514572864321615

df_auto[['mpg']].mean()
# mpg    23.514573
# dtype: float64

df_auto[['mpg', 'weight']].mean()
# mpg         23.514573
# weight    2970.424623
# dtype: float64

 

 

 

 

 

median()


  • 산술 데이터를 갖는 모든 열의 중간값을 계산하여 시리즈로 반환합니다.
  • 데이터 프레임의 특정 컬럼을 선택하여 중간값을 계산 할 수 있습니다.

 

 

▶  기본 구문

df_auto.median()

# mpg               23.0
# cylinders          4.0
# displacement     148.5
# weight          2803.5
# acceleration      15.5
# model year        76.0
# origin             1.0
# dtype: float64

 

▶ 특정 컬럼 지정

df_auto.mpg.median()
# 23.0

df_auto['mpg'].median()
# 23.0

df_auto[['mpg']].median()
# mpg    23.0
# dtype: float64

df_auto[['mpg', 'weight']].median()
# mpg         23.0
# weight    2803.5
# dtype: float64

 

 

 

 

 

 

 

max(), mix()


 

 

 

 

 

 

 

std()


표준편차

  • 데이터프레임의 각 컬럼이 갖는 컬럼의 표준편차를 계산하여 시리즈로 반환합니다.
  • 데이터프레임의 특정 열을 선책하여 계산이 가능합니다.

 

▶ 기본 구문

df_auto.std()

# mpg               7.815984
# cylinders         1.701004
# displacement    104.269838
# weight          846.841774
# acceleration      2.757689
# model year        3.697627
# origin            0.802055
# dtype: float64

 

▶ 특정 컬럼 지정

df_auto.mpg.std()
# 7.815984312565782

df_auto['mpg'].std()
# 7.815984312565782

df_auto[['mpg']].std()
# mpg    7.815984
# dtype: float64

df_auto[['mpg', 'weight']].std()
# mpg         7.815984
# weight    846.841774
# dtype: float64

 

 

 

 

 

 

corr()


상관계수

  • 두 열 간의 상관계수를 계산합니다.
  • 산술 데이터를 갖는 모든 열에 대해 2개씩 서루 짝을 직고, 각각의 경우에 대해 상관계수를 계산합니다.

 

 

▶ 기본 구문

df_auto.corr()

 

▶ 특정 두 컬럼의 상관계수

df_auto[['mpg', 'weight']].corr()

 

반응형

'Python' 카테고리의 다른 글

[Python] 시각화 도구  (0) 2022.09.28
[Python] pandas 내장 그래프 도구  (0) 2022.09.27
[Python] Web scrapping  (0) 2022.09.27
[Python] Pandas  (0) 2022.09.27
[Python] 파일 저장  (0) 2022.09.27