반응형 데이터파이프라인3 데이터파이프라인 흐름 데이터레이크와 데이터웨어하우스의 비교 데이터 파이프라인의 흐름 데이터 수집 (Ingestion)데이터를 다양한 소스에서 가져옵니다.소스: IoT 센서, 트랜잭션 시스템, 소셜 미디어, 로그 파일 등도구: Apache Kafka, AWS Kinesis, Batch ETL 등실시간 스트리밍 또는 배치(batch) 방식으로 데이터를 처리합니다.데이터 저장 (Storage)데이터 레이크원본 데이터를 정제하지 않고 원시 형태 그대로 저장클라우드 기반 스토리지(AWS S3, Azure Data Lake 등)를 주로 사용데이터 웨어하우스구조화된 데이터 저장소: 데이터 웨어하우스는 정제된 데이터를 스키마 기반으로 저장하여 효율적인 질의와 분석을 지원BI 및 운영 분석: 데이터 웨어하우스는 대시보드, 리포트 생성, 실시간 운영 분석에 주로 사용주요 도구:.. 2025. 1. 3. 데이터 엔지니어링의 파이프라인 과정 (데이터 수집부터 시각화까지) 데이터엔지니어링의 이것저것 여러 개념을 배우면서어떤 순서로 작동하는 건지 헷갈리는 부분이 있어서지금가지 경험해온 걸 바탕으로 확실하게 정리를 하고 넘어갈까 한다 데이터 파이프라인 프로세스 1. 데이터 수집키워드: API, 데이터 추출, Open API, Kiwoom API데이터를 다양한 소스에서 추출하는 단계파일 기반 : CSV, Excel, JSON, XML 등의 정형 데이터 파일데이터베이스 : MySQL, PostgreSQL, MongoDB 기존에 저장된 데이터베이스에서 쿼리를 통해 데이터를 가져옴=> 3번의 데이터베이스가 따로 있지만 이미 저장 된 시스템에 저장된 데이터를 가져와야하는 경우데이터 수집 소스로 사용하는 경우도 있음 -> docker나 airflow는 데이터 수집 단계에서 계속.. 2024. 12. 9. 데이터 파이프라인(ETL/ELT) 과 AirFlow DAG의 구조 및 개념 이번에는 데이터파이프라인(ETL/ELT)을 알아보고 Airflow를 적용하는 방법에 대해 알아볼 거다 데이터 레이크와 웨어하웃 ETL과 ELT에 대한 개념은 아래 링크 참고 데이터 흐름과정 서비스에서 생기는 직접 데이터 & 써드파티에서 생기는 간접 데이터 => 데이터 적제 (ETL) => 데이터 인프라( 전용 데이터 모음집 = 데이터웨어하우스) => 데이터 분석 => 데이터 과학 적용(경험 개선) 외부에 있는 데이터를 코드로 작성해서 데이터 웨어하우스로 가져오는 작업 -> 대표적인 프레임워크가 AIRFLOWAirflow에선 데이터 적제를 DAG라고 말함 데이터웨어하우스의 구성 데이터 소스(mysql emd) => ETL 적용(데이엔지니어링 하는 일) => 데이터웨어하우스에 담기 => 좀 더.. 2024. 11. 18. 이전 1 다음 반응형