본문 바로가기
반응형

데이터엔지니어링/데이터수집8

웹크롤링과 웹스크래핑 차이점 및 특정데이터 추출하기 웹크롤링과 웹스크래핑   요소웹크롤링웹스크래핑목적웹 페이지 탐색 및 인덱싱특정 데이터 추출대상모든 웹 페이지특정 웹페이지출력페이지 url 및 메타데이터구조화된 데이터프로세스전체웹사이트의 링크 탐색특정 페이지의 정보 추출      웹스크래핑 주의요청하고자 하는 서버에 과도한 부하를 주지 않음가져온 정보를 사용할 때 저작권과 데이터베이스권에 위배되지 않는지 주의   웹스크래핑 실행  1. 필요한 라이브러리 pip install requests beautifulsoup4 1) requests: 네이버 메인 페이지에 HTTP GET 요청을 보맴 -> 문제점 발생 : 아주 해당 내용은 아주 긴 텍스트로 와서 분석 어려움 -> 원하는 요소만 추출 하는 HTML parser : BeautifulSoup4 2) Bea.. 2024. 11. 1.
동적웹사이트와 정적웹사이트 차이점 및 time.sleep()의 활용 웹사이트의 두가지 유형 동적웹사이트 vs 정적 웹사이트  1. 정적 웹사이트 (Static Website)고정된 콘텐츠를 제공하는 웹 페이지, 사용자의 요청에 따라 변하지 않음페이지의 내용은 서버에 저장된 HTML 파일 그대로 사용자에게 전송예시: 개인 블로그, 포트폴리오 웹사이트 2. 동적 웹사이트 (Dynamic Website)서버 측에서 콘텐츠가 생성되며, 사용자의 요청에 따라 실시간으로 변하는 웹 페이지데이터베이스와 연결되어 있어 사용자의 상호작용에 따라 콘텐츠가 달라질 수 있음예시: 소셜 미디어 사이트, 전자상거래 웹사이트문제점 : 동적 콘텐츠 생성으로 인해 서버 부하가 높아질 수 있으며, 페이지 로딩 속도가 느려질 수 있음-> 해결책 : time.sleep() 활용    -> 페이지의 모든 요.. 2024. 10. 13.
브라우저 자동화하는 셀리니움selenium 설치 및 with-as를 활용한 예문보기 브라우저 자동화 selenium   1.  WebDriver는 웹 브라우저를 제어할 수 있는 자동화 프레임워크%pip install webdriver-manager   2. Selenium 으로 부터 webdriver 불러오기from selenium import webdriverfrom selenium.webdriver.common.by import Byimport time     3. 웹드라이버 경로 설정 (ChromeDriver의 경로를 지정하세요)driver_path = r'C:\path\to\chromedriver.exe' # 드라이버의 경로를 지정합니다.driver = webdriver.Chrome(executable_path=driver_path)     4. 웹사이트 열기 driver.ge.. 2024. 10. 13.
html 정의 및 기본 문법 정리 html이란? HTML은 마크업 언어입니다. 마크업 언어는 일반 텍스트에 태그를 사용하여 구조와 의미를 부여하는 언어예를 들어, , 같은 태그를 사용해 제목과 본문을 구분하고, 그 의미를 웹 브라우저가 이해할 수 있도록 함    html 구조   |- 안녕하세요! 이것은 첫 번째 문단입니다.       html주석 : 주석 안에 주석은 불가능      태그  HTML은 여러 태그로 구성되며, 각 태그는 특정한 기능을 가집니다. 태그는 로 감싸여 있으며, 시작 태그와 종료 태그로 구성   1. HTML 문서의 시작과 끝을 나타내는 태그    2.    3. 메타데이터, 제목, 스타일 시트, 외부 파일 등을 정의하는 부분 / 실제로 보여지는 부분  This is a heading Th.. 2024. 10. 13.
반응형