반응형

Python 88

[Python] Scatterplot

Scatterplot 서로 다른 두 변수 사이의 관계를 표시합니다. 각 변수는 연속되는 값, 일반적으로 정수형 도는 실수형의 데이터 입니다. 2개의 연속 변수를 각각 x, y축에 하나씩 놓아, 데이터 값이 위치하는 좌표를 찾아서 점으로 표시합니다. 옵션 c : 점의 색상 s : 점의 크기 alpha : 투명도 ▷ 생성문 DataFrame.plot(kind='scatter') ▶ mpg, weight의 축을 가진 히스토그램을 생성합니다. df_auto.plot(kind='scatter',x='weight', y ='mpg', s=10, c='FireBrick', figsize=(6,3)) plt.title("mpg VS weight") ▶ Cylinder의 값을 점의 사이즈로 설정합니다. cylinders..

Python 2022.09.30

[Python] Histogram

히스토그램 변수가 하나인 단변수 데이터의 빈도수를 그래프로 표현합니다. x축을 같은 크기의 여러 구간으로 나누고 각 구간에 속하는 데이터 값의 개수(빈도)를 y축에 표시합니다. 구간을 나누는 간격의 크기에 따라 빈도가 달라지고 모양이 변합니다. ▶ 파일을 불러온뒤 컬럼을 지정합니다. df_auto = pd.read_csv('./auto-mpg.csv', header=None) df_auto.columns = ['mpg','cylinders','displacement','horsepower','weight','acceleration','model year','origin','name'] df_auto.to_csv("df_auto.csv") ▶ 히스토그램을 생성합니다. df_auto.mpg.plot(kind..

Python 2022.09.30

[Python] 시각화 도구

Matplotlib 기본 그래프 도구 연속하는 데이터 값들을 직선 또는 곡선으로 연결하여 데이터 값 사이의 관계 표현 시계열 데이터와 같이 연속적인 값의 변화와 패턴을 파악하는 데 적합(시도별 전출입 인구수.xlsx) ▶ 라이브러리를 불러옵니다. import matplotlib.pyplot as plt ▶ 주소를 불러옵니다. df_move = pd.read_excel("./시도별 전출입 인구수.xlsx") ▶ 누락 값을 앞 데이터로 채웁니다. 데이터 프레임 객체 .fillna(method='fill')) df_move.fillna(method='ffill', inplace=True) ▶ 서울에서 다른 지역으로 이동한 데이터만 추출합니다. is_seoul = df_move['전출지별'] == "서울특별시"..

Python 2022.09.28

[Python] pandas 내장 그래프 도구

pandas 내장 그래프 도구 그래프를 이용한 시각화 방법은 데이터의 분포와 패턴을 파악하는데 큰 도움이 됩니다. 시리즈 또는 데이터 프레임 객체에 plot() 메서드를 적용하고, kind 옵션으로 그래프의 종류를 선택합니다. * 시각화 할 때 파이그래프는 가급 사용하지 않는것이 좋다. 그래프 생성 ▶ 엑셀 파일을 불러옵니다. df_ = pd.read_excel('./남북한발전전력량.xlsx') ▶ 남한과 북한의 합계량을 불러온뒤 인덱스명을 변경합니다. df_ns = df_.iloc[[0, 5], 2:].rename({0:"South", 5:"North"}) ▶ 컬럼명을 정수형으로 변한하고 전치를 한 뒤 그래프를 생성합니다. df_ns.columns.map(int) df_ns.T.plot() * pd.D..

Python 2022.09.27

[Python] 데이터 확인

데이터 요약 정보 확인 ▶ 데이터프레임의 크기(컬럼, 로우) DataFrame객체.shape 데이터프레임 클래스 shape 속성은 컬럼과 로우의 개수를 튜플 형태로 반환합니다. ▶ 데이터프레임의 기본 정보 DataFrame객체.info() 클래스 유형, 컬럼 인덱스 구성, 컬럼 이름, 종류와 개수, 각 로우의 자료형과 개수, 메모리 할당량 정보를 포함합니다. head(n) & tail(n) 데이터의 처음, 마지막 행을 n개 만큼 보여줍니다. 인자 값을 입력하지 않을 경우 5개의 행을 보여줍니다. df_auto.head(10) 열이 아무리 많아도 행 하나가 데이터 하나가 됩니다. describe() 데이터 요약 정보를 확인합니다. 산술(숫자) 데이터를 갖는 열에 대한 주요 기술 통계 정보(평균, 표준편차,..

Python 2022.09.27

[Python] Web scrapping

from bs4 import BeautifulSoup from selenium import webdriver import time, sys # query_txt = input('크롤링할 키워드는 무엇입니까?: ') #Step 2. 크롬 드라이버 (혹은 사파리) 사용 웹 브라우저 실행 path = "./Desktop/chromedriver" driver = webdriver.Chrome(path) # mac은 Safari( ) driver.get("https://korean.visitkorea.or.kr/main/main.html") time.sleep(1) driver.find_element_by_id("inp_search").click() element = driver.find_element_by_id..

Python 2022.09.27

[Python] Pandas

PANDAS 파이썬의 데이터 분석 라이브러리 데이터 테이블을 다루는 도구입니다. 표데이터를 분석하기 위한 도구들이 SQL 보다 더 많습니다. ▶ 기본적으로 넘파이를 사용합니다. 넘파이 : 파이썬에서 배열을 다루는 최적의 라이브러리 판다스는 넘파이를 효율적으로 사용하기 위해 인덱싱, 연산, 전처리 등 다양한 함수를 제공합니다. Pandas의 개념 DataFrame : 데이터 테이블 전체 객체. Series : 각 열 데이터를 다루는 객체. (하나의 Vector) 시리즈 객체 Feature vector와 같은 개념입니다. 일반적으로 하나의 피쳐 데이터를 포함하는 형태입니다. 생성된 데이터 프레임 안에 포함될 수 있습니다. list, dict, ndarray 등 다양한 데이터 타입이 시리즈 객체 형태로 변환되..

Python 2022.09.27

[Python] 파일 저장

CSV 파일로 저장 판다스 데이터프레임은 2차월 배열로 구조화된 데이터로 2차원 구조를 갖는 CSV파일로 변환이 가능합니다. ▶ 구문 to_scv('파일이름(경로)') ▷ 예문 data = {'name' : ['Jerry', 'Riah', 'Paul'], 'algol' : ["A", "A+", "B"], 'basic' : ["C", "B", "B+"], 'c++' : ["B+", "C", "C+"]} df = pd.DataFrame(data) df.set_index('name', inplace=True) df.to_csv("df_sample.csv") JSON 파일로 저장 ▶ 구문 to_json('파일이름(경로)') ▷ 예문 data = {'name' : ['Jerry', 'Riah', 'Paul'], ..

Python 2022.09.27

[Python] numpy 내적연산

내적연산 베열 간의 곱셈에서는 요소별 연산과 벡터의 내적(dot product) 연산이 가능합니다. 두 개의 행렬에서 첫 번째 행렬의 열 크기와 두 번째 행렬의 행 크기가 동일 해야 합니다. m * n 행렬과 n * l 행렬, 벡터의 내적 연산은 m * l 의 행렬이 생성됩니다. * 벡터의 내적 : 두 배열간의 곱셈 import numpy as np x_1 = np.arange(1, 7).reshape(2, 3) x_2 = np.arange(1, 7).reshape(3, 2) print(x_1.dot(x_2)) # [[22 28] # [49 64]] x_1 = np.arange(1, 11).reshape(2, 5) x_2 = np.arange(1, 16).reshape(5, -1) print(x_1.do..

Python 2022.09.24

[Python] numpy

numpy 파이썬에서 수치 해석을 위한 배열을 사용하는 표준 패키지입니다. 다차원 배열의 자료구조 클래스인 ndarray 클래스를 지원하며 벡터와 행렬을 사용하는 선형대수 계산에 주로 사용됩니다. 내부적으로 BLAS 라이브러리와 LAPACK 라이브러리를 사용하고 있으며 C로 구성된 CPython에서만 사용할 수 있습니다. 넘파이의 배열 연산은 C로 구현된 내부 반복문을 사용하기 때문에 파이썬 반복문에 비해 속도가 빠르며 벡터화 연산을 이용하여 간단한 코드로도 복잡한 선형 대수 연산을 수행 할 수 있습니다. 배열 인덱싱을 사용한 질의 기능을 이용하여 간단한 코드로도 복잡합 수식을 계산할 수 있습니다. ▶ 리스트의 단점 많은 숫자 데이터를 하나의 변수에 넣고 관리할 때 속도가 느리며 메모리를 많이 차지 합니..

Python 2022.09.22
반응형