반응형
beautifulsoup4 라이브러리를 설치한다.
pip install beautifulsoup4
from bs4 import BeautifulSoup
html_file = r"__test__\article_sample.html"
page = open(html_file, "rt", encoding="utf-8").read() # HTML 파일 읽고 문자열 리턴
soup = BeautifulSoup(page, "html.parser") # Soup 객체 생성
# div와 p 두 종류가 있음
for div in soup.find_all(["div", "p"]):
print(div)
beautifulsoup4 라이브러리를 사용하면 html을 쉽게 파싱할 수 있다.
fild_all 함수를 이용하여 원하는 태그만 추출 가능하다.
반응형
'프로그래밍 > python' 카테고리의 다른 글
파이썬 엑셀 파일 합치는 프로그램 (0) | 2023.06.02 |
---|---|
python selector xpath 크롬 콘솔에서 테스트방법 (0) | 2023.06.01 |
python 날짜 n월 n주차 구하기 (0) | 2023.05.30 |
selenium이나 request로 크롤링을 하는 중 차단을 당한 경우 우회하는 방법 중 하나 (0) | 2023.05.25 |
python, Enum에 접근할 때, 멤버의 이름을 변수로 받아서 사용하는 방법 (0) | 2023.05.22 |