본문 바로가기
반응형

데이터 파이프라인 구축15

데이터 엔지니어링의 파이프라인 과정 수집부터 시각화까지 데이터엔지니어링의 이것저것 여러 개념을 배우면서어떤 순서로 작동하는 건지 헷갈리는 부분이 있어서지금가지 경험해온 걸 바탕으로 확실하게 정리를 하고 넘어갈까 한다   데이터 파이프라인 프로세스    1. 데이터 수집키워드: API, 데이터 추출, Open API, Kiwoom API데이터를 다양한 소스에서 추출하는 단계파일 기반 : CSV, Excel, JSON, XML 등의 정형 데이터 파일데이터베이스 : MySQL, PostgreSQL, MongoDB 기존에 저장된 데이터베이스에서 쿼리를 통해 데이터를 가져옴=> 3번의 데이터베이스가 따로 있지만 이미 저장 된 시스템에 저장된 데이터를 가져와야하는 경우데이터 수집 소스로 사용하는 경우도 있음 -> docker나 airflow는 데이터 수집 단계에서 계속.. 2024. 12. 9.
데이터 웨어하우스 VS 데이터 레이크 / ETL VS ELT 데이터웨어하우스는 기본적으로 클라우드가 대세임고정비용 옵션과 가변비용 옵션 데이터 레이크  - 구조화된 데이터 + 비구조화된 레이크- 원본 그대로 저장하는 스토리지 - 데이터 웨어하우스보다 몇배는 더 큰 스토리지 - 가격이 저렴함 - ELT 사용 예시 도구 : AWS S3  / Azure Data Lake / Google Cloud Storage / Hadoop HDFS       데이터 웨어하우스   - 구조화된 데이터를 저장하는 중앙 저장소- 미리 정의된 스키마에 따라 정제 및 조직화- 가격이 비쌈 ( 필요한 정보만 저장하고 처리 )- 보통 bi 툴들은 데이터 웨어하우스를 백엔드로 사용- ETL 사용  예시 도구: Amazon Redshife / Google BigQuery / Snowflake / .. 2024. 11. 17.
페이지네이션의 오류로 인해서 알아보는 network 사용법 특정 사이트를 크롤링하는데 페이지네이션이 제대로 되지 않는다 ##예시코드base_url = "https://example.com/data?page={}" 페이지네이션이란 위 예시 코딩과 같이URL에 ?page={숫자} 형식으로 페이지 번호를 바꿔가며 자동으로 다음 페이지의 데이터를 불러오는 방식을 말하는데 내가 크롤링을 해야했던 사이트의 경우 페이지네이션이 적용되지 않았다이럴 경우에는 어떻게 해야할 까?    network 사용방법  개발자 도구의 Network탭, 어떻게 활용할 수 있나?개발자 도구 중 Network 탭에 대해 알아보자!velog.ionetwork는 처음 알게된 부분이라 다른 블로거분이 정리해주신 내용을 공부한 후에 진행했다해당 링크는 network에 보는 방법에 대해서 설명해 놓은 내.. 2024. 11. 4.
웹크롤링과 웹스크래핑 차이점 및 특정데이터 추출하기 웹크롤링과 웹스크래핑   요소웹크롤링웹스크래핑목적웹 페이지 탐색 및 인덱싱특정 데이터 추출대상모든 웹 페이지특정 웹페이지출력페이지 url 및 메타데이터구조화된 데이터프로세스전체웹사이트의 링크 탐색특정 페이지의 정보 추출      웹스크래핑 주의요청하고자 하는 서버에 과도한 부하를 주지 않음가져온 정보를 사용할 때 저작권과 데이터베이스권에 위배되지 않는지 주의   웹스크래핑 실행  1. 필요한 라이브러리 pip install requests beautifulsoup4 1) requests: 네이버 메인 페이지에 HTTP GET 요청을 보맴 -> 문제점 발생 : 아주 해당 내용은 아주 긴 텍스트로 와서 분석 어려움 -> 원하는 요소만 추출 하는 HTML parser : BeautifulSoup4 2) Bea.. 2024. 11. 1.
반응형