본문 바로가기
데이터 수집 및 파이프라인 구축

데이터파이프라인 흐름 데이터레이크와 데이터웨어하우스의 비교

by goemgoem-i 2025. 1. 3.
반응형

데이터 파이프라인의 흐름

 

 

  1. 데이터 수집 (Ingestion)
    • 데이터를 다양한 소스에서 가져옵니다.
      • 소스: IoT 센서, 트랜잭션 시스템, 소셜 미디어, 로그 파일 등
      • 도구: Apache Kafka, AWS Kinesis, Batch ETL 등
    • 실시간 스트리밍 또는 배치(batch) 방식으로 데이터를 처리합니다.
  2. 데이터 저장 (Storage)
    • 데이터 레이크
      • 원본 데이터를 정제하지 않고 원시 형태 그대로 저장
      • 클라우드 기반 스토리지(AWS S3, Azure Data Lake 등)를 주로 사용
    • 데이터 웨어하우스
      • 구조화된 데이터 저장소: 데이터 웨어하우스는 정제된 데이터를 스키마 기반으로 저장하여 효율적인 질의와 분석을 지원
      • BI 및 운영 분석: 데이터 웨어하우스는 대시보드, 리포트 생성, 실시간 운영 분석에 주로 사용
      • 주요 도구: Amazon Redshift, Snowflake, Google BigQuery 등
  3. 데이터 처리 및 가공 (Processing & Transformation)
    • 데이터를 정제(clean), 변환(transform), 통합(integrate)
      • 예: 중복 제거, 결측값 처리, 데이터 통합 등
      • 도구: Apache Spark, AWS Glue, Python 등
    • 데이터 레이크에서 가공한 데이터를 데이터 웨어하우스나 분석 시스템으로 이동
  4. 데이터 분석 및 활용 (Analysis & Utilization)
    • BI 도구: Tableau, Power BI 등으로 분석 및 시각화
    • 머신러닝: 모델 학습 및 예측 작업 수행
    • 실시간 분석: 데이터 스트리밍 플랫폼 활용

 

 

 

 

데이터레이크에서 데이터를 가공하고 이후 데이터웨어하우스로 데이터를 옮김

- 데이터레이크 : 원시데이터를 저장해 유연성 제공

- 데이터웨어하우스 : 정제된 데이터를 저장해 효율적인 비즈니스 분석을 직원

 

 

반응형