반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- Uipath 기초
- selenium
- 네이버 로그인 하기
- 가상환경설치
- pycdc.exe
- Element is not clickable at point
- 네이버커머스API
- vscode venv 설치
- 왕초보 파이썬 실행
- venv 설치
- 파이썬 환경설정
- pywinauto
- 파이썬 네이버 로그인
- Python
- uipath 입문
- 파이썬 가상환경 설치방법
- pycdas.exe
- 네이버부동산크롤링
- 날짜 정규식
- 파이썬 가상환경 설치
- pywinauto 윈도우제어
- 파이썬네이버부동산
- pywinauto 윈도우
- Uipath 설치방법
- Selenium 셀렉터잡기
- UiPath
- 커머스API
- 네이버 로그인 영수증 해결
- 네이버 로그인 캡챠해결
- 네이버매물크롤링
Archives
- Today
- Total
콘솔워크
[나도코딩 웹스크래핑] 정리 본문
반응형
배운내용 정리
Selenium을 더 잘 활용하기 위해서는 아래 사이트 참조
selenium-python.readthedocs.io/
XPath란?
html의 element에 대한 unique한 경로이다.
이 xpath를 활용하여 원하는 element를 쉽게 가져올 수 있다.
개발자 도구에서 오른쪽 마우스 클릭 >> Copy >> Copy Xpath 클릭
정규식
User-Agent
서버에 requests 할 때, request 하는 client가 어떠한 환경인지 보여주는 정보
Requests And Selenium
Selenium
크롬 버전 확인 후 아래 사이트에서 크롬 버전에 맞는 드라이버 다운로드 필요
☞ 크롬버전확인 : chrome://version
☞ 크롬드라이버 다운로드 : chromedriver.chromium.org/downloads
로딩이 될때 까지 기다릴때 쓰는 함수
스크롤 내리기
from bs4 import BeautifulSoup
from selenium import webdriver
import time
interval = 2 # 2초에 한번 씩 스크롤 내림
browser = webdriver.Chrome()
browser.maximize_window()
url = "https://play.google.com/store/movies/top"
browser.get(url)
# 현재 문서 높이를 가져와서 저장
prev_height = browser.execute_script("return document.body.scrollHeight")
# 반복 수행
while True:
browser.execute_script("window.scrollTo(0, document.body.scrollHeight)")
# 페이지 로딩 대기
time.sleep(interval)
# 현재 문서 높이를 가져와서 저장
curr_height = browser.execute_script("return document.body.scrollHeight")
if curr_height == prev_height:
break
prev_height = curr_height
print("스크롤 완료")
BeautifulSoup
구글 이미지 다운로드
웹스크래핑 - 엑셀에 저장 (csv확장자)
브라우저를 띄우지 않고 크롬의 html 스크래핑
☞크롬 Headdless Chrome 소스 확인: uipath.tistory.com/59
데이터 사용 주의
강의링크.
반응형
'프로그래밍 > python' 카테고리의 다른 글
[나도코딩 웹스크래핑) User-Agent 자동으로 가져오기 (0) | 2021.01.18 |
---|---|
[나도코딩 웹스크래핑] 퀴즈1 - 다음 부동산- 헬리오시티 검색 결과 출력 (0) | 2021.01.17 |
[나도코딩 웹스크래핑] Chrome headless 최종소스 (0) | 2021.01.17 |
[Python dataframe] Union and Union ALL (0) | 2021.01.15 |
[Python dataframe] 값이 없는 데이터 filtering notnull (0) | 2021.01.12 |