반응형

파이썬 웹 크롤링 / 네이버 첫화면 HTML 가져오기 
- beautifulsoup Parser와 비교

 

HTML 가져오기 위한 라이브러리, Beautifulsoup를 가져오기 위한 라이브러리

HTML을 가져오기 위한 라이브러리는 urllib 이며, request 모듈을 이용한다. urllib은 내장 라이브러리로 별도 설치할 필요가 없습니다.

 

HTML을 가져와서 보기는 어려워 Parser를 이용해 HTML을 쉽게 파악할 수 있도록 파싱합니다.

Parser에는 여러 종류가 있겠지만, 잘 알려진 bs4 라이브러리의 Beautifulsoup 모듈을 이용해 봅니다.

"pip install bs4" 명령어로 설치할 수 있고, Pycharm을 사용한다면 아래와 같은 방법으로 설치합니다.

 

File > Settings > Project Interpreter > [+] > bs4 설치

 

네이버 첫화면 HTML 가져오기를 위한 코드

 

request 모듈을 이용해 naver의 url의 html을 가져옵니다.

그리고 가져온 html을 보기 편하도록 BeautifulSoup 모듈로 파싱합니다.

from bs4 import BeautifulSoup
import urllib.request as req

url = "https://naver.com"
res = req.urlopen(url).read()
soup = BeautifulSoup(res, 'html.parser') 

print(res) #native html 출력
print(soup) #파싱된 html 출력

 

 

가져온 html과 파싱한 결과 비교

아래 결과를 보았을 때, html은 파싱하여 이용해야 하고, 다음엔 이 파싱된 부분을 가지고 이용하는 방법에 대해 다루어 보겠습니다. 

 

파싱되지 않은 html

파싱한 html

반응형

+ Recent posts