반응형
데이터 파이프라인의 흐름
- 데이터 수집 (Ingestion)
- 데이터를 다양한 소스에서 가져옵니다.
- 소스: IoT 센서, 트랜잭션 시스템, 소셜 미디어, 로그 파일 등
- 도구: Apache Kafka, AWS Kinesis, Batch ETL 등
- 실시간 스트리밍 또는 배치(batch) 방식으로 데이터를 처리합니다.
- 데이터를 다양한 소스에서 가져옵니다.
- 데이터 저장 (Storage)
- 데이터 레이크
- 원본 데이터를 정제하지 않고 원시 형태 그대로 저장
- 클라우드 기반 스토리지(AWS S3, Azure Data Lake 등)를 주로 사용
- 데이터 웨어하우스
- 구조화된 데이터 저장소: 데이터 웨어하우스는 정제된 데이터를 스키마 기반으로 저장하여 효율적인 질의와 분석을 지원
- BI 및 운영 분석: 데이터 웨어하우스는 대시보드, 리포트 생성, 실시간 운영 분석에 주로 사용
- 주요 도구: Amazon Redshift, Snowflake, Google BigQuery 등
- 데이터 레이크
- 데이터 처리 및 가공 (Processing & Transformation)
- 데이터를 정제(clean), 변환(transform), 통합(integrate)
- 예: 중복 제거, 결측값 처리, 데이터 통합 등
- 도구: Apache Spark, AWS Glue, Python 등
- 데이터 레이크에서 가공한 데이터를 데이터 웨어하우스나 분석 시스템으로 이동
- 데이터를 정제(clean), 변환(transform), 통합(integrate)
- 데이터 분석 및 활용 (Analysis & Utilization)
- BI 도구: Tableau, Power BI 등으로 분석 및 시각화
- 머신러닝: 모델 학습 및 예측 작업 수행
- 실시간 분석: 데이터 스트리밍 플랫폼 활용
데이터레이크에서 데이터를 가공하고 이후 데이터웨어하우스로 데이터를 옮김
- 데이터레이크 : 원시데이터를 저장해 유연성 제공
- 데이터웨어하우스 : 정제된 데이터를 저장해 효율적인 비즈니스 분석을 직원
반응형
'Data Engineering' 카테고리의 다른 글
docker-compose와 docker compose의 차이 (0) | 2025.01.05 |
---|---|
메달리온 아키텍 Bronze layer Silver layer Gold layer (0) | 2025.01.04 |
구글 api pytyhon 클라이언트 사용방법 Google Cloud Secret Manager (2) | 2025.01.02 |
하드코딩과 소프트코딩 차이점 및 개념 (0) | 2025.01.01 |
CI / CD 기본개념 (0) | 2024.12.30 |