반응형

python 86

[Python] Boxplot

Boxplot 범주형 데이터의 분포 파악에 적합합니다. 5개의 통계 지표를 제공합니다. 최소값 1분위값 중간값 3분위 값 최대값 ▶ 각각의 국가별 mpg를 한 차트로 불러옵니다. fig = plt.figure(figsize=(20,10)) ax1 = fig.add_subplot(1, 2, 1) ax2 = fig.add_subplot(1, 2, 2) mpg_1 = df_auto.loc[df_auto.origin == 1, 'mpg'] mpg_2 = df_auto.loc[df_auto.origin == 2, 'mpg'] mpg_3 = df_auto.loc[df_auto.origin == 3, 'mpg'] ax1.boxplot(x = [mpg_1, mpg_2, mpg_3], labels=['USA', 'EU'..

Python 2022.09.30

[Python] Pie

Pie ▷ 생성문 DataFrame.plot(kind='pie') ▶ 데이터를 불러옵니다. df_origin = df_auto.origin.value_counts() ▶ 데이터의 인덱스명을 변경합니다. df_origin.rename({1:'USA', 2:"EU", 3:"JAPAN"}, inplace=True) ▶ 파이 차트를 생성합니다. startangle : 각도를 변경합니다. autopct : 부채꼴 안에 표시될 확률의 형식을 설정합니다. df_origin.plot(kind='pie', figsize=(7,4), autopct="%1.2f%%", startangle=90, colors=['Khaki', 'Crimson', 'CadetBlue']) plt.title("Model Origin", font..

Python 2022.09.30

[Python] Scatterplot

Scatterplot 서로 다른 두 변수 사이의 관계를 표시합니다. 각 변수는 연속되는 값, 일반적으로 정수형 도는 실수형의 데이터 입니다. 2개의 연속 변수를 각각 x, y축에 하나씩 놓아, 데이터 값이 위치하는 좌표를 찾아서 점으로 표시합니다. 옵션 c : 점의 색상 s : 점의 크기 alpha : 투명도 ▷ 생성문 DataFrame.plot(kind='scatter') ▶ mpg, weight의 축을 가진 히스토그램을 생성합니다. df_auto.plot(kind='scatter',x='weight', y ='mpg', s=10, c='FireBrick', figsize=(6,3)) plt.title("mpg VS weight") ▶ Cylinder의 값을 점의 사이즈로 설정합니다. cylinders..

Python 2022.09.30

[Python] Histogram

히스토그램 변수가 하나인 단변수 데이터의 빈도수를 그래프로 표현합니다. x축을 같은 크기의 여러 구간으로 나누고 각 구간에 속하는 데이터 값의 개수(빈도)를 y축에 표시합니다. 구간을 나누는 간격의 크기에 따라 빈도가 달라지고 모양이 변합니다. ▶ 파일을 불러온뒤 컬럼을 지정합니다. df_auto = pd.read_csv('./auto-mpg.csv', header=None) df_auto.columns = ['mpg','cylinders','displacement','horsepower','weight','acceleration','model year','origin','name'] df_auto.to_csv("df_auto.csv") ▶ 히스토그램을 생성합니다. df_auto.mpg.plot(kind..

Python 2022.09.30

[Python] 시각화 도구

Matplotlib 기본 그래프 도구 연속하는 데이터 값들을 직선 또는 곡선으로 연결하여 데이터 값 사이의 관계 표현 시계열 데이터와 같이 연속적인 값의 변화와 패턴을 파악하는 데 적합(시도별 전출입 인구수.xlsx) ▶ 라이브러리를 불러옵니다. import matplotlib.pyplot as plt ▶ 주소를 불러옵니다. df_move = pd.read_excel("./시도별 전출입 인구수.xlsx") ▶ 누락 값을 앞 데이터로 채웁니다. 데이터 프레임 객체 .fillna(method='fill')) df_move.fillna(method='ffill', inplace=True) ▶ 서울에서 다른 지역으로 이동한 데이터만 추출합니다. is_seoul = df_move['전출지별'] == "서울특별시"..

Python 2022.09.28

[Python] pandas 내장 그래프 도구

pandas 내장 그래프 도구 그래프를 이용한 시각화 방법은 데이터의 분포와 패턴을 파악하는데 큰 도움이 됩니다. 시리즈 또는 데이터 프레임 객체에 plot() 메서드를 적용하고, kind 옵션으로 그래프의 종류를 선택합니다. * 시각화 할 때 파이그래프는 가급 사용하지 않는것이 좋다. 그래프 생성 ▶ 엑셀 파일을 불러옵니다. df_ = pd.read_excel('./남북한발전전력량.xlsx') ▶ 남한과 북한의 합계량을 불러온뒤 인덱스명을 변경합니다. df_ns = df_.iloc[[0, 5], 2:].rename({0:"South", 5:"North"}) ▶ 컬럼명을 정수형으로 변한하고 전치를 한 뒤 그래프를 생성합니다. df_ns.columns.map(int) df_ns.T.plot() * pd.D..

Python 2022.09.27

[Python] 데이터 확인

데이터 요약 정보 확인 ▶ 데이터프레임의 크기(컬럼, 로우) DataFrame객체.shape 데이터프레임 클래스 shape 속성은 컬럼과 로우의 개수를 튜플 형태로 반환합니다. ▶ 데이터프레임의 기본 정보 DataFrame객체.info() 클래스 유형, 컬럼 인덱스 구성, 컬럼 이름, 종류와 개수, 각 로우의 자료형과 개수, 메모리 할당량 정보를 포함합니다. head(n) & tail(n) 데이터의 처음, 마지막 행을 n개 만큼 보여줍니다. 인자 값을 입력하지 않을 경우 5개의 행을 보여줍니다. df_auto.head(10) 열이 아무리 많아도 행 하나가 데이터 하나가 됩니다. describe() 데이터 요약 정보를 확인합니다. 산술(숫자) 데이터를 갖는 열에 대한 주요 기술 통계 정보(평균, 표준편차,..

Python 2022.09.27

[Python] Web scrapping

from bs4 import BeautifulSoup from selenium import webdriver import time, sys # query_txt = input('크롤링할 키워드는 무엇입니까?: ') #Step 2. 크롬 드라이버 (혹은 사파리) 사용 웹 브라우저 실행 path = "./Desktop/chromedriver" driver = webdriver.Chrome(path) # mac은 Safari( ) driver.get("https://korean.visitkorea.or.kr/main/main.html") time.sleep(1) driver.find_element_by_id("inp_search").click() element = driver.find_element_by_id..

Python 2022.09.27

[Python] Pandas

PANDAS 파이썬의 데이터 분석 라이브러리 데이터 테이블을 다루는 도구입니다. 표데이터를 분석하기 위한 도구들이 SQL 보다 더 많습니다. ▶ 기본적으로 넘파이를 사용합니다. 넘파이 : 파이썬에서 배열을 다루는 최적의 라이브러리 판다스는 넘파이를 효율적으로 사용하기 위해 인덱싱, 연산, 전처리 등 다양한 함수를 제공합니다. Pandas의 개념 DataFrame : 데이터 테이블 전체 객체. Series : 각 열 데이터를 다루는 객체. (하나의 Vector) 시리즈 객체 Feature vector와 같은 개념입니다. 일반적으로 하나의 피쳐 데이터를 포함하는 형태입니다. 생성된 데이터 프레임 안에 포함될 수 있습니다. list, dict, ndarray 등 다양한 데이터 타입이 시리즈 객체 형태로 변환되..

Python 2022.09.27

[Python] 파일 저장

CSV 파일로 저장 판다스 데이터프레임은 2차월 배열로 구조화된 데이터로 2차원 구조를 갖는 CSV파일로 변환이 가능합니다. ▶ 구문 to_scv('파일이름(경로)') ▷ 예문 data = {'name' : ['Jerry', 'Riah', 'Paul'], 'algol' : ["A", "A+", "B"], 'basic' : ["C", "B", "B+"], 'c++' : ["B+", "C", "C+"]} df = pd.DataFrame(data) df.set_index('name', inplace=True) df.to_csv("df_sample.csv") JSON 파일로 저장 ▶ 구문 to_json('파일이름(경로)') ▷ 예문 data = {'name' : ['Jerry', 'Riah', 'Paul'], ..

Python 2022.09.27
반응형