본문 바로가기
반응형

데이터 수집 및 파이프라인 구축/데이터수집 (Extract)10

youtube api 분석 및 프로젝트생성과 사용자 인증정보 생성 youtube api를 분석해보겠다 게임보다는 익숙한 환경이라 수월했으면,,    1. 구글 클라우드로 들어가서 우선 프로젝트를 생성해야한다 https://code.google.com/apis/console/?hl=ko     2. 프로젝트 생성 새프로젝트 생성클릭  이름은 youtube로 설정하고 만들어지면 youtube프로젝트로 변경해줍니다   3. youtube api 검색하기youtube v3 클릭   API사용해보기 클릭  그럼 이런 화면이 뜬다   4. API를 사용할려면 사용자 인증정보를 만들어야한다 근데 위의 작업을 하기에 앞서 사용자 인증정보를 만들어야한ㄷ이전 화면의 '사용'을 누르면  여기서 사용자 인증정보 만들기 클릭 공개 테이터를 클릭해서 다음 버튼을 누르면 API키가 만들어진걸 확.. 2024. 12. 19.
페이지네이션의 오류로 인해서 알아보는 network 사용법 특정 사이트를 크롤링하는데 페이지네이션이 제대로 되지 않는다 ##예시코드base_url = "https://example.com/data?page={}" 페이지네이션이란 위 예시 코딩과 같이URL에 ?page={숫자} 형식으로 페이지 번호를 바꿔가며 자동으로 다음 페이지의 데이터를 불러오는 방식을 말하는데 내가 크롤링을 해야했던 사이트의 경우 페이지네이션이 적용되지 않았다이럴 경우에는 어떻게 해야할 까?    network 사용방법  개발자 도구의 Network탭, 어떻게 활용할 수 있나?개발자 도구 중 Network 탭에 대해 알아보자!velog.ionetwork는 처음 알게된 부분이라 다른 블로거분이 정리해주신 내용을 공부한 후에 진행했다해당 링크는 network에 보는 방법에 대해서 설명해 놓은 내.. 2024. 11. 4.
웹크롤링과 웹스크래핑 차이점 및 특정데이터 추출하기 웹크롤링과 웹스크래핑   요소웹크롤링웹스크래핑목적웹 페이지 탐색 및 인덱싱특정 데이터 추출대상모든 웹 페이지특정 웹페이지출력페이지 url 및 메타데이터구조화된 데이터프로세스전체웹사이트의 링크 탐색특정 페이지의 정보 추출      웹스크래핑 주의요청하고자 하는 서버에 과도한 부하를 주지 않음가져온 정보를 사용할 때 저작권과 데이터베이스권에 위배되지 않는지 주의   웹스크래핑 실행  1. 필요한 라이브러리 pip install requests beautifulsoup4 1) requests: 네이버 메인 페이지에 HTTP GET 요청을 보맴 -> 문제점 발생 : 아주 해당 내용은 아주 긴 텍스트로 와서 분석 어려움 -> 원하는 요소만 추출 하는 HTML parser : BeautifulSoup4 2) Bea.. 2024. 11. 1.
동적웹사이트와 정적웹사이트 차이점 및 time.sleep()의 활용 웹사이트의 두가지 유형 동적웹사이트 vs 정적 웹사이트  1. 정적 웹사이트 (Static Website)고정된 콘텐츠를 제공하는 웹 페이지, 사용자의 요청에 따라 변하지 않음페이지의 내용은 서버에 저장된 HTML 파일 그대로 사용자에게 전송예시: 개인 블로그, 포트폴리오 웹사이트 2. 동적 웹사이트 (Dynamic Website)서버 측에서 콘텐츠가 생성되며, 사용자의 요청에 따라 실시간으로 변하는 웹 페이지데이터베이스와 연결되어 있어 사용자의 상호작용에 따라 콘텐츠가 달라질 수 있음예시: 소셜 미디어 사이트, 전자상거래 웹사이트문제점 : 동적 콘텐츠 생성으로 인해 서버 부하가 높아질 수 있으며, 페이지 로딩 속도가 느려질 수 있음-> 해결책 : time.sleep() 활용    -> 페이지의 모든 요.. 2024. 10. 13.
반응형