반응형
데이터웨어하우스는 기본적으로 클라우드가 대세임
고정비용 옵션과 가변비용 옵션
데이터 레이크
- 구조화된 데이터 + 비구조화된 레이크
- 원본 그대로 저장하는 스토리지
- 데이터 웨어하우스보다 몇배는 더 큰 스토리지
- 가격이 저렴함
- ELT 사용
예시 도구 : AWS S3 / Azure Data Lake / Google Cloud Storage / Hadoop HDFS
데이터 웨어하우스
- 구조화된 데이터를 저장하는 중앙 저장소
- 미리 정의된 스키마에 따라 정제 및 조직화
- 가격이 비쌈 ( 필요한 정보만 저장하고 처리 )
- 보통 bi 툴들은 데이터 웨어하우스를 백엔드로 사용
- ETL 사용
예시 도구: Amazon Redshife / Google BigQuery / Snowflake / Microsoft Azure Synapse
[결론]
데이터 레이크에서 의미 있는 것만 데이터웨어하우스로 가져가서 가공진행
ETL vs ELT
ETL
데이터 웨어하우스 외부에서 내부로 가져오는 프로세스 ( 데이터 엔지니어링 )
- Extract : 다양한 소스(예: 관계형 데이터베이스, NoSQL, 파일, API, IoT 장치 등)에서 데이터를 수집.
- Transform : 주로 데이터 정제, 스키마 변경, 집계, 데이터 매핑 작업 / 중복제거 및 형식 변환
- Load : 변환된 데이터를 데이터 웨어하우스, 데이터 마트 또는 데이터웨어하우스에 테이블로 집어 넣는 과정 / Snowflake, Redshift, BigQuery 에 업로드
ELT
데이터 웨어하우스 내부 데이터를 조작해서 요약된 새로운 데이터 만드는 프로세스 ( 데이터 분석가 )
데이터 레이크에서 진행
- Extract: 원본 데이터 소스에서 데이터를 추출.
- Load: 데이터를 변환 없이 원형 그대로 저장소(데이터 웨어하우스 또는 데이터 레이크)에 로드.
- Transform: 데이터가 저장된 후, SQL 쿼리나 분석 도구로 데이터를 변환 및 처리.
[결론]
ETL이 실시간 데이터 파이프라인과 선처리가 중요한 환경에서 사용
ELT는 대규모 데이터를 효율적으로 로드하고 분석 유연성을 제공하는 클라우드 환경에서 적합
반응형
'데이터 수집 및 파이프라인 구축' 카테고리의 다른 글
데이터웨어하우스 데이터엔지니어링에서 사용하는 용어 Bronze data, Silver data, Gold data (0) | 2025.01.04 |
---|---|
데이터파이프라인 흐름 데이터레이크와 데이터웨어하우스의 비교 (3) | 2025.01.03 |