본문 바로가기
데이터 수집 및 파이프라인 구축

데이터 웨어하우스 VS 데이터 레이크 / ETL VS ELT

by goemgoem-i 2024. 11. 17.
반응형

데이터웨어하우스는 기본적으로 클라우드가 대세임

고정비용 옵션과 가변비용 옵션

 

사진출처: 굄굄이

데이터 레이크 

 

- 구조화된 데이터 + 비구조화된 레이크

- 원본 그대로 저장하는 스토리지 

- 데이터 웨어하우스보다 몇배는 더 큰 스토리지 

- 가격이 저렴함 

- ELT 사용

 

예시 도구 : AWS S3  / Azure Data Lake / Google Cloud Storage / Hadoop HDFS

 

 

 

 

 

 

 

데이터 웨어하우스

사진출처: 굄굄이

 

 

 

- 구조화된 데이터를 저장하는 중앙 저장소

- 미리 정의된 스키마에 따라 정제 및 조직화

- 가격이 비쌈 ( 필요한 정보만 저장하고 처리 )

- 보통 bi 툴들은 데이터 웨어하우스를 백엔드로 사용

- ETL 사용 

 

예시 도구: Amazon Redshife / Google BigQuery / Snowflake / Microsoft Azure Synapse

 

 

 

 

 

 

[결론] 

데이터 레이크에서 의미 있는 것만 데이터웨어하우스로 가져가서 가공진행

 

 

 

 

 

 

ETL vs ELT

 

 

ETL

데이터 웨어하우스 외부에서 내부로 가져오는 프로세스 ( 데이터 엔지니어링 )

  • Extract  : 다양한 소스(예: 관계형 데이터베이스, NoSQL, 파일, API, IoT 장치 등)에서 데이터를 수집.
  • Transform :  주로 데이터 정제, 스키마 변경, 집계, 데이터 매핑 작업 / 중복제거 및 형식 변환 
  • Load : 변환된 데이터를 데이터 웨어하우스, 데이터 마트 또는 데이터웨어하우스에 테이블로 집어 넣는 과정 / Snowflake, Redshift, BigQuery 에 업로드
  1.  

 

ELT 

데이터 웨어하우스 내부 데이터를 조작해서 요약된 새로운 데이터 만드는 프로세스 ( 데이터 분석가 )

데이터 레이크에서 진행

 

  • Extract: 원본 데이터 소스에서 데이터를 추출.
  • Load: 데이터를 변환 없이 원형 그대로 저장소(데이터 웨어하우스 또는 데이터 레이크)에 로드.
  • Transform: 데이터가 저장된 후, SQL 쿼리나 분석 도구로 데이터를 변환 및 처리.

 

 

 

[결론]

ETL이 실시간 데이터 파이프라인과 선처리가 중요한 환경에서 사용 

ELT는 대규모 데이터를 효율적으로 로드하고 분석 유연성을 제공하는 클라우드 환경에서 적합

 

 

반응형