반응형

Crawling 2

[Python] CRAWLING - BeautifulSoup

CRAWLING 웹 페이지에서 필요한 데이터를 추출해내는 작업. CRAWLING을 하는 프로그램을 Crawler라고 한다. BeautifulSoup HTML파일을 BeautifulSoup객체로 만들 수 있다 변수 이름은 관습적으로 soup이라고 한다. html.parser는 BeautifulSoup객체에게 HTML을 분석하라고 지시하는 의미를 가지고 있다. html.parser는 파이썬 내장 클래스로 별도로 작성하지 않으면 자동으로 작동된다. # 현재 페이지의 html 코드를 full_html에 저장한다. full_html = driver.page_source soup = BeautifulSoup(full_html, "html.parser") index.html이라는 html파일로 BeautifulSou..

Python 2022.09.13

[python] WEB CRAWLING

WEB CRAWLING ▶ 웹 크롤링의 원리 ▶ 웹 크롤링의 주의사항 실제 운영되고 있는 사이트에서 크롤링한 데이터를 업무상 목적으로 임의로 사용할 경우 법적인 문제가 발생할 수 있다. 이럴 경우 모든 법적 책임이 사용자에게 있으니 데이터를 수집할 수 있는 능력을 배웠다고 해서 수집된 데이터를 함부로 사용하면 절대로 안된다. 과도한 크롤링 작업으로 해당 사이트에 여러가지 문제나 손해가 발생할 경우 영업 방해로 법적인 책임을 질 수 있다. 이 부분도 아주 주의 해야합니다. ▷ bs4를 설치한다. !pip install bs4 ▷ selenium을 설치한다. 4.2.1 이상 버전부터 실행 문장들이 대폭 수정되었다. !pip install selenium==4.2.0 ▷ 필요한 모듈과 라이브러리를 로딩하고 검..

Python 2022.09.08
반응형