반응형
게임 레벨로만 들어봤던 용어를 data에서도 사용하는 걸 보고 신기해서
정리해보는 데이터엔지니어링 분들 사이에서 사용하는 용어 정리를 해본다
1. Bronze data, Silver data, Gold data
품질과 처리 수준에 따라 데이터 파이프라인의 단계를 명확히 구분하기 위해 사용한다
데이터 파이프라인은 보통 데이터 레이크 (Data Lake)에서부터 시작되며, 데이터 품질 및 가공 수준에 따라 계층적 나뉜다
이러한 계층 구조에서 데이터를 표현하기 위해 금속의 순도 등급에 비유한 명칭이 사용되었다고 한다
- Bronze (브론즈):
- 원시(raw) 데이터를 저장하는 계층
- 가장 낮은 품질의 데이터로, 변환이나 정리가 거의 이루어지지 않은 상태
- 주로 데이터 수집 및 아카이브 목적
- 모든 데이터를 손실 없이 저장하여 이후 재처리가 가능
- Silver (실버):
- 정리(cleaned) 및 변환된 데이터를 저장하는 계층
- 원시 데이터에서 잘못된 값이나 중복 데이터를 제거한 상태
- 데이터를 분석에 적합하도록 준비하는 단계
- 예: JSON을 Parquet으로 변환, 필터링, 중복 제거, 간단한 집계 등
- Gold (골드):
- 최종 분석용 데이터를 저장하는 계층
- Silver 계층에서 추가적인 가공을 거쳐 BI 도구나 ML 모델에서 바로 사용할 수 있는 상태
- 주로 고도로 구조화된 데이터가 포함됨
- 예: 매출 집계, KPI 데이터 등
2. 사용 이유
- 표준화된 데이터 계층 구조:
- Bronze, Silver, Gold로 명명하면 데이터 엔지니어와 분석가들이 쉽게 데이터의 품질과 목적을 이해할 수 있다
- 데이터 파이프라인 설계 시 혼란을 줄여준다
- 재사용성과 확장성:
- Bronze 계층은 원본 데이터를 유지하므로 재처리가 가능
- Silver 계층은 다양한 분석 요구를 지원할 수 있도록 정리된 데이터 제공
- Gold 계층은 비즈니스 인사이트를 직접 제공
- 분리된 책임:
- 각 계층이 서로 독립적이므로, 문제 발생 시 특정 계층만 수정하거나 다시 실행 가능
- 예: Bronze 단계의 API 호출 오류는 Silver나 Gold 단계에 영향을 주지 않음
3. 다른 명칭 사용 가능
Bronze, Silver, Gold는 널리 사용되는 표준이지만, 프로젝트나 조직의 필요에 따라 다른 명칭을 사용할 수도 있다
예시:
- Raw → Processed → Curated
- Landing → Staging → Production
- Tier 1 → Tier 2 → Tier 3
하지만, Bronze/Silver/Gold 명명은 클라우드 데이터 설계(AWS, Databricks, Snowflake 등)에서 거의 보편적으로 사용되는 용어 이기 때문에 익숙해 지는 것이 좋음
반응형
'데이터 수집 및 파이프라인 구축' 카테고리의 다른 글
데이터파이프라인 흐름 데이터레이크와 데이터웨어하우스의 비교 (3) | 2025.01.03 |
---|---|
데이터 웨어하우스 VS 데이터 레이크 / ETL VS ELT (0) | 2024.11.17 |