반응형
데이터웨어하우스는 기본적으로 클라우드가 대세임
고정비용 옵션과 가변비용 옵션
데이터 레이크
- 구조화된 데이터 + 비구조화된 레이크
- 원본 그대로 저장하는 스토리지
- 데이터 웨어하우스보다 몇배는 더 큰 스토리지
- 가격이 저렴함
- ELT 사용
예시 도구 : AWS S3 / Azure Data Lake / Google Cloud Storage / Hadoop HDFS
데이터 웨어하우스
- 구조화된 데이터를 저장하는 중앙 저장소
- 미리 정의된 스키마에 따라 정제 및 조직화
- 가격이 비쌈 ( 필요한 정보만 저장하고 처리 )
- 보통 bi 툴들은 데이터 웨어하우스를 백엔드로 사용
- ETL 사용
예시 도구: Amazon Redshife / Google BigQuery / Snowflake / Microsoft Azure Synapse
[결론]
데이터 레이크에서 의미 있는 것만 데이터웨어하우스로 가져가서 가공진행
ETL vs ELT
ETL
데이터 웨어하우스 외부에서 내부로 가져오는 프로세스 ( 데이터 엔지니어링 )
- Extract : 다양한 소스(예: 관계형 데이터베이스, NoSQL, 파일, API, IoT 장치 등)에서 데이터를 수집.
- Transform : 주로 데이터 정제, 스키마 변경, 집계, 데이터 매핑 작업 / 중복제거 및 형식 변환
- Load : 변환된 데이터를 데이터 웨어하우스, 데이터 마트 또는 데이터웨어하우스에 테이블로 집어 넣는 과정 / Snowflake, Redshift, BigQuery 에 업로드
ELT
데이터 웨어하우스 내부 데이터를 조작해서 요약된 새로운 데이터 만드는 프로세스 ( 데이터 분석가 )
데이터 레이크에서 진행
- Extract: 원본 데이터 소스에서 데이터를 추출.
- Load: 데이터를 변환 없이 원형 그대로 저장소(데이터 웨어하우스 또는 데이터 레이크)에 로드.
- Transform: 데이터가 저장된 후, SQL 쿼리나 분석 도구로 데이터를 변환 및 처리.
[결론]
ETL이 실시간 데이터 파이프라인과 선처리가 중요한 환경에서 사용
ELT는 대규모 데이터를 효율적으로 로드하고 분석 유연성을 제공하는 클라우드 환경에서 적합
반응형
'Data Engineering' 카테고리의 다른 글
airflow ec2로 설치 터미널 가상환경 열어서 설치 / sudo의 사용이유 (1) | 2024.11.19 |
---|---|
데이터 파이프라인(ETL/ELT) 과 AirFlow DAG의 구조 및 개념 (2) | 2024.11.18 |
페이지네이션의 오류로 인해서 알아보는 network 사용법 (2) | 2024.11.04 |
docker 윈도우 설치 후 superset도 설치 실패한 이유 (2) | 2024.11.02 |
웹크롤링과 웹스크래핑 차이점 및 특정데이터 추출하기 (2) | 2024.11.01 |