728x90
728x90
BeautifulSoup
웹크롤링(웹의 데이터를 받아올때) 사용하는 툴로 해당 페이지의 html내역을 긁어(?)올수 있다.
requests를 통해 해당 URL을 content로 변환하여 html 변수에 넣고 작업을 시작한다.
해당 html을 BeautifulSoup을 사용하여 html로 파싱하여 가져오게 되는데,
여러종류의 parser를 지원하고 있다. 두가지 소개해보면.
html.parser
별도로 설치할 필요가 없으며, 보통속도의 파서
시행방법 : BeautifulSoup(html, 'html.parser')
lxml
lxml 추가 설치가 필요하며, 빠른 속도
시행방법: BeautifulSoup(html,'lxml')
728x90
728x90
'study > 프로그래밍' 카테고리의 다른 글
python_ 이미지의 잘못된 촬영일자 정보를 파일명 기준으로 일괄변경 (1) | 2022.03.26 |
---|---|
HTML 공부를 위한 참고사이트 (8) | 2020.08.23 |
[python] konlpy 활용 기사내용속 단어 빈도수 확인하기 (1) | 2020.07.09 |
[python] 뉴스기사 크롤링, newspaper Article (2) | 2020.07.06 |
[python] RSS를 통한 뉴스기사 제목 과 링크가져오기 with feedparser (0) | 2020.07.04 |