웹크롤링과 웹스크래핑 차이점 및 특정데이터 추출하기

웹크롤링과 웹스크래핑

요소	웹크롤링	웹스크래핑
목적	웹 페이지 탐색 및 인덱싱	특정 데이터 추출
대상	모든 웹 페이지	특정 웹페이지
출력	페이지 url 및 메타데이터	구조화된 데이터
프로세스	전체웹사이트의 링크 탐색	특정 페이지의 정보 추출

웹스크래핑 주의

요청하고자 하는 서버에 과도한 부하를 주지 않음
가져온 정보를 사용할 때 저작권과 데이터베이스권에 위배되지 않는지 주의

웹스크래핑 실행

1. 필요한 라이브러리

pip install requests beautifulsoup4

1) requests: 네이버 메인 페이지에 HTTP GET 요청을 보맴

-> 문제점 발생 : 아주 해당 내용은 아주 긴 텍스트로 와서 분석 어려움

-> 원하는 요소만 추출 하는 HTML parser : BeautifulSoup4

2) BeautifulSoup: 응답받은 HTML 내용을 파싱

2. requests와 BeautifulSoup 활용

import requests

# 네이버 메인 페이지 요청
url = 'https://www.naver.com/'
response = requests.get(url)


from bs4 import BeautifulSoup 
# BeautifulSoup객체 생성 
#soup = BeautifulSoup (response의 body를 텍스트로 전달 , "html"로 분석한다는 것을 명시) 
# 페이지 내용 파싱
soup = BeautifulSoup(response.text, 'html.parser')

# 객체 soup의 .prettify()를 활용해 분석된 HTML을 보기 편하게 반환
print(soup.prettify())

3. 특정 개체 가져오기

# title 가져오기
Soup.title

# head 가져오기
Soup.head

# body 가져오기
Soup.body

4. 특정 태그 가져오기

# 태그 이름 가져오기
h1.name 

# 태그 내용 가져오기
h1.text

1) 특정 태그에 해당하는 요소 하나 찾기

# 첫 번째 <h2> 태그
soup.find('h2') #첫번째로 등장하는<h2>로 감싸진 태그 찾음 

first_h2 = soup.find('h2')
print(first_h2.get_text(strip=True))

2) 특정 태그에 해당하는 요소 모두 찾기

# 모든 <p> 태그
soup.find_all('p') #<p>태그로 감싸진 모든 요소 찾기

for p in soup.find_all('p'):
    print(p.get_text(strip=True))

p: BeautifulSoup 객체로 생성된 태그를 나타냅니다. 즉, 이미 파싱된 HTML 문서에서 특정한 태그의 객체
.get_text(): 이 메서드는 해당 태그 내에 포함된 모든 텍스트 내용을 추출하여 문자열로 반환

<p>안녕하세요, <strong>반갑습니다!</strong></p>

"안녕하세요, 반갑습니다!"

-> 태그는 무시되고, 태그 내부의 텍스트만 반환

3) 특정 태그에 안에 있는 또하나의 태그 추출하기

# <p> 태그 안에 있는 <strong> 태그 가져오기
strong_tag = p.find('strong')  # p 태그 내의 첫 번째 <strong> 태그

if strong_tag:
    print(strong_tag.get_text(strip=True))  # <strong> 태그의 텍스트 출력

p.find('strong'): p 태그 내부에서 첫 번째 태그를 찾음
.get_text(strip=True): 태그의 텍스트를 추출 / strip=True를 사용하면 양쪽 공백이 제거된 텍스트 반환
strip=True를 사용하면 양쪽 공백이 제거된 텍스트가 반환

4) 사이트의 속성을 활용해 필요한 클래스의 요소 가져오기

#class가 "item-list"인 모든 <li> 태그를 찾아서, 그 결과를 items라는 리스트 변수에 저장
items = soup.find_all("li", "item-list")  
# print(items)  # 리스트의 내용을 확인


#item 변수에서 class가 "content"인 <div>를 찾고, 그 안에서 class가 "header"인 <div>를 찾은 다음, 그 <div>의 <h4> 태그 안에 있는 텍스트를 가져와서 출력하는 과정
for item in items:
    print(item.find("div", "content").find("div", "header").h4.text)

3. HTML의 locator로 원하는 요소 찾기

tagname: 태그의 이름
id: 하나의 고유 태그를 가리키는 라벨
class: 여러 태그를 묶는 라벨

# 1. 태그 이름으로 <h1> 태그 가져오기
soup.find('h1').get_text()  # "Welcome"

# 2. ID로 <div> 태그 가져오기
soup.find(id='main-content').get_text()  # "WelcomeHello!"

# 3. ID가 results인 div 태그 가져오기
soup.find("div", id="result")

# 4. ID가 results인 div 태그 가져오기
soup.find("div", id="result")

# 5. 클래스명으로 <p> 태그 가져오기
soup.find_all(class_='description')[0].get_text()  # "Hello!"

.strip(): 양쪽 공백 제거

sult.h3.text.strip()  # '안녕하세요'에서 양쪽 공백 제거

4.Pagination페이지네이션

import time
# 페이지 지연 시간 (2초)
    time.sleep(2)

저작자표시 비영리 변경금지 (새창열림)

'Data Engineering' 카테고리의 다른 글

페이지네이션의 오류로 인해서 알아보는 network 사용법 (2)	2024.11.04
docker 윈도우 설치 후 superset도 설치 실패한 이유 (2)	2024.11.02
동적웹사이트와 정적웹사이트 차이점 및 time.sleep()의 활용 (2)	2024.10.13
브라우저 자동화하는 셀리니움selenium 설치 및 with-as를 활용한 예문보기 (1)	2024.10.13
html 정의 및 기본 문법 정리 (3)	2024.10.13

굄굄이

웹크롤링과 웹스크래핑 차이점 및 특정데이터 추출하기

'Data Engineering' 카테고리의 다른 글

티스토리툴바

웹크롤링과 웹스크래핑 차이점 및 특정데이터 추출하기

'Data Engineering' 카테고리의 다른 글

관련글

티스토리툴바