크롤링 비교

핀테크 교육/금융데이터 활용

크롤링 비교

nauung_always 2022. 7. 15. 22:43

728x90

크롤링으로는 주로 Selenium과 BeautifulSoup를 많이 사용한다.

두가지 방법을 모두 사용해보고 비교를 해보았다.

Selenium 은 웹 동작으로 동적 크롤링을 효과적으로 수행한다.
Xpath의 pattern을 찾아 함수를 생성하고 Click()과 back() 함수를 통해 페이지를 이동하는 방식이다.
driver.find_element_by_xpath('복사한 xpath) .click(), .send_keys() 를 통해 웹 동작
라이브러리 자체가 무겁고 자주 막힌다는 아쉬움이 있다.

BeautifulSoup는 html 정보를 파싱하여 수행한다.
soup.find_all()의 구조로 검색한다. (soup.find()의 경우도 동일)
soup.find_all()의 경우에 리스트로 값을 반환하기 때문에 인덱싱을 해주어야 다른 함수들을 활용할 수 있다. (.text, .get등)
부모 태그를 가지고 온 경우 -> 더 파싱이 가능하다. .find(부모태그).find(자식태그)
원하는 데이터를 찾을 때 html 구조에서 헤매는 경우를 해결할 수 있다.

728x90

'핀테크 교육 > 금융데이터 활용' 카테고리의 다른 글

파이썬 - 데이터베이스 연결 (0)	2022.07.14
워드클라우드 (0)	2022.07.05
konlpy 형태소 분석기 (0)	2022.07.05
크롤링 (네이버 기사 크롤링 - newspaper3k 사용) (0)	2022.07.05
크롤링 (네이버 기사 크롤링) (0)	2022.07.05

현재글크롤링 비교

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

as_always