본문 바로가기
반응형

데이터 수집 및 파이프라인 구축13

데이터웨어하우스 데이터엔지니어링에서 사용하는 용어 Bronze data, Silver data, Gold data 게임 레벨로만 들어봤던 용어를 data에서도 사용하는 걸 보고 신기해서 정리해보는 데이터엔지니어링 분들 사이에서 사용하는 용어 정리를 해본다 1. Bronze data, Silver data, Gold data 품질과 처리 수준에 따라 데이터 파이프라인의 단계를 명확히 구분하기 위해 사용한다데이터 파이프라인은 보통 데이터 레이크 (Data Lake)에서부터 시작되며, 데이터 품질 및 가공 수준에 따라 계층적 나뉜다이러한 계층 구조에서 데이터를 표현하기 위해 금속의 순도 등급에 비유한 명칭이 사용되었다고 한다  Bronze (브론즈):원시(raw) 데이터를 저장하는 계층가장 낮은 품질의 데이터로, 변환이나 정리가 거의 이루어지지 않은 상태주로 데이터 수집 및 아카이브 목적모든 데이터를 손실 없이 저장하여 .. 2025. 1. 4.
데이터파이프라인 흐름 데이터레이크와 데이터웨어하우스의 비교 데이터 파이프라인의 흐름  데이터 수집 (Ingestion)데이터를 다양한 소스에서 가져옵니다.소스: IoT 센서, 트랜잭션 시스템, 소셜 미디어, 로그 파일 등도구: Apache Kafka, AWS Kinesis, Batch ETL 등실시간 스트리밍 또는 배치(batch) 방식으로 데이터를 처리합니다.데이터 저장 (Storage)데이터 레이크원본 데이터를 정제하지 않고 원시 형태 그대로 저장클라우드 기반 스토리지(AWS S3, Azure Data Lake 등)를 주로 사용데이터 웨어하우스구조화된 데이터 저장소: 데이터 웨어하우스는 정제된 데이터를 스키마 기반으로 저장하여 효율적인 질의와 분석을 지원BI 및 운영 분석: 데이터 웨어하우스는 대시보드, 리포트 생성, 실시간 운영 분석에 주로 사용주요 도구:.. 2025. 1. 3.
구글 api pytyhon 클라이언트 사용방법 Google Cloud Secret Manager Google-api-pyhton-clientsGoogle Calendar, Drive, Gmail 등과 같은 Google 서비스의 API를 활용할 수 있음    1. Google Cloud Console에서 OAuth 2.0 클라이언트 생성 1-1.  API 키 생성https://toonovel.tistory.com/entry/youtube-api-%EB%B6%84%EC%84%9D-%EB%B0%8F-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8%EC%83%9D%EC%84%B1%EA%B3%BC-%EC%82%AC%EC%9A%A9%EC%9E%90-%EC%9D%B8%EC%A6%9D%EC%A0%95%EB%B3%B4-%EC%83%9D%EC%84%B1 youtube api 분석 및 프로젝트생성과 .. 2025. 1. 2.
하드코딩과 소프트코딩 차이점 및 개념 1. 하드코딩 (Hard Coding)하드코딩은 코드 내에서 데이터를 직접 명시적으로 작성하는 방식입니다.특징:값이 코드에 고정됨특정 값(예: URL, 파일 경로, 설정 값 등)을 소스 코드 안에 직접 입력합니다.빠른 개발단순하고 빠르게 구현할 수 있어 초기 단계에서는 편리합니다.유지보수 어려움데이터 변경 시 코드를 수정해야 하므로, 유지보수가 어려워질 수 있습니다. # 하드코딩된 URLapi_url = "https://example.com/api/v1/resource"print(f"Connecting to {api_url}")단점:값이 변경될 경우 소스 코드를 수정해야 함.재사용성이 낮고, 코드가 다양한 환경에 적응하기 어려움.    2. 소프트코딩 (Soft Coding)소프트코딩은 코드 외부에서 데.. 2025. 1. 1.
반응형