반응형
데이터 파이프라인의 흐름
- 데이터 수집 (Ingestion)
- 데이터를 다양한 소스에서 가져옵니다.
- 소스: IoT 센서, 트랜잭션 시스템, 소셜 미디어, 로그 파일 등
- 도구: Apache Kafka, AWS Kinesis, Batch ETL 등
- 실시간 스트리밍 또는 배치(batch) 방식으로 데이터를 처리합니다.
- 데이터를 다양한 소스에서 가져옵니다.
- 데이터 저장 (Storage)
- 데이터 레이크
- 원본 데이터를 정제하지 않고 원시 형태 그대로 저장
- 클라우드 기반 스토리지(AWS S3, Azure Data Lake 등)를 주로 사용
- 데이터 웨어하우스
- 구조화된 데이터 저장소: 데이터 웨어하우스는 정제된 데이터를 스키마 기반으로 저장하여 효율적인 질의와 분석을 지원
- BI 및 운영 분석: 데이터 웨어하우스는 대시보드, 리포트 생성, 실시간 운영 분석에 주로 사용
- 주요 도구: Amazon Redshift, Snowflake, Google BigQuery 등
- 데이터 레이크
- 데이터 처리 및 가공 (Processing & Transformation)
- 데이터를 정제(clean), 변환(transform), 통합(integrate)
- 예: 중복 제거, 결측값 처리, 데이터 통합 등
- 도구: Apache Spark, AWS Glue, Python 등
- 데이터 레이크에서 가공한 데이터를 데이터 웨어하우스나 분석 시스템으로 이동
- 데이터를 정제(clean), 변환(transform), 통합(integrate)
- 데이터 분석 및 활용 (Analysis & Utilization)
- BI 도구: Tableau, Power BI 등으로 분석 및 시각화
- 머신러닝: 모델 학습 및 예측 작업 수행
- 실시간 분석: 데이터 스트리밍 플랫폼 활용
데이터레이크에서 데이터를 가공하고 이후 데이터웨어하우스로 데이터를 옮김
- 데이터레이크 : 원시데이터를 저장해 유연성 제공
- 데이터웨어하우스 : 정제된 데이터를 저장해 효율적인 비즈니스 분석을 직원
반응형
'데이터 수집 및 파이프라인 구축' 카테고리의 다른 글
데이터웨어하우스 데이터엔지니어링에서 사용하는 용어 Bronze data, Silver data, Gold data (0) | 2025.01.04 |
---|---|
데이터 웨어하우스 VS 데이터 레이크 / ETL VS ELT (0) | 2024.11.17 |