반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- 네이버부동산크롤링
- 날짜 정규식
- Element is not clickable at point
- pycdc.exe
- 네이버커머스API
- Uipath 설치방법
- pycdas.exe
- Selenium 셀렉터잡기
- uipath 입문
- 네이버매물크롤링
- 파이썬 네이버 로그인
- 왕초보 파이썬 실행
- 네이버 로그인 하기
- 파이썬 환경설정
- pywinauto 윈도우
- 커머스API
- pywinauto 윈도우제어
- 네이버 로그인 영수증 해결
- 파이썬네이버부동산
- 네이버 로그인 캡챠해결
- Uipath 기초
- 가상환경설치
- 파이썬 가상환경 설치
- vscode venv 설치
- 파이썬 가상환경 설치방법
- UiPath
- Python
- selenium
- pywinauto
- venv 설치
Archives
- Today
- Total
콘솔워크
python html에서 원하는 태그만 추출하기 본문
반응형
beautifulsoup4 라이브러리를 설치한다.
pip install beautifulsoup4
from bs4 import BeautifulSoup
html_file = r"__test__\article_sample.html"
page = open(html_file, "rt", encoding="utf-8").read() # HTML 파일 읽고 문자열 리턴
soup = BeautifulSoup(page, "html.parser") # Soup 객체 생성
# div와 p 두 종류가 있음
for div in soup.find_all(["div", "p"]):
print(div)
beautifulsoup4 라이브러리를 사용하면 html을 쉽게 파싱할 수 있다.
fild_all 함수를 이용하여 원하는 태그만 추출 가능하다.
반응형
'프로그래밍 > python' 카테고리의 다른 글
파이썬 엑셀 파일 합치는 프로그램 (0) | 2023.06.02 |
---|---|
python selector xpath 크롬 콘솔에서 테스트방법 (0) | 2023.06.01 |
python 날짜 n월 n주차 구하기 (0) | 2023.05.30 |
selenium이나 request로 크롤링을 하는 중 차단을 당한 경우 우회하는 방법 중 하나 (0) | 2023.05.25 |
python, Enum에 접근할 때, 멤버의 이름을 변수로 받아서 사용하는 방법 (0) | 2023.05.22 |