본문 바로가기
반응형

티스토리챌린지18

데이터 웨어하우스 VS 데이터 레이크 / ETL VS ELT 데이터웨어하우스는 기본적으로 클라우드가 대세임고정비용 옵션과 가변비용 옵션 데이터 레이크  - 구조화된 데이터 + 비구조화된 레이크- 원본 그대로 저장하는 스토리지 - 데이터 웨어하우스보다 몇배는 더 큰 스토리지 - 가격이 저렴함 - ELT 사용 예시 도구 : AWS S3  / Azure Data Lake / Google Cloud Storage / Hadoop HDFS       데이터 웨어하우스   - 구조화된 데이터를 저장하는 중앙 저장소- 미리 정의된 스키마에 따라 정제 및 조직화- 가격이 비쌈 ( 필요한 정보만 저장하고 처리 )- 보통 bi 툴들은 데이터 웨어하우스를 백엔드로 사용- ETL 사용  예시 도구: Amazon Redshife / Google BigQuery / Snowflake / .. 2024. 11. 17.
빅데이터분석기사 실기 1과목 날짜시간 데이터 index 날짜 시간 데이터는 별도의 파일이 따로 없기 때문에 dataframe 을 새로 생성해서 연습해보겠다 #데이터 만들기df = pd.DataFrame( { '날짜': ['20230105', '20230105', '20230223', '20230223', '20230312', '20230422', '20230405'], '물품': ['A', 'B', 'A', 'B', 'A', 'B','A'], '판매수' : ['5','10', '15', '15', '20', '25', '40'], '개당수익': [500, 600, 500, 600, 600, 700, 600]})df   1) 날짜 다루기먼저 df로 전체적인 데이터 파악    df.info()로 데이터 특성 파악날자가 object라서 숫자로.. 2024. 11. 16.
빅데이터분석기사 실기 1과목 데이터 표준화, min-max scaling,데이터 합치기 앞으로 작성할 코드의 참고 데이터는 kaggle의 "web page phishing detection dataset" 이다https://www.kaggle.com/datasets/shashwatwork/web-page-phishing-detection-dataset Web page Phishing Detection DatasetDetect Phishing in Web Pageswww.kaggle.com 데이터 scaling 데이터 표준화StandardScaler() (기본값 - 평균 / 분산) 한 값들로 변경됨    최소최대 정규화MinMaxScaler 최대최소 정규화는 0과 1사이의 값이 나옴     데이터 합치기  1) 행기준 합치기df,loc[행범위, 열범위] df_sum = pd.concat( [.. 2024. 11. 15.
빅데이터분석기사 실기 1과목 실기 데이터 결측치, 이상치, 중복값 처리 빅데이터분석기사 실기 1과목 데이터산포도 분산, 표준편차, iqr, 절댓값 , 최대최소, 합계지난 블로그에 이어서 산포도를 나타내는 함수들에 대해서 연습해볼 예정이다  빅데이터분석기사 실기 1과목 head, info, describe, shape, dtypes, astype, 최소값/최대값/최빈값 정리 캐빅데이터분석가toonovel.tistory.com(이전에 작성한 개념)  이번에는 데이터 결측치 / 이상치 / 중복값을 확인하고 처리하는 과정을 진행하겠다이전 1과목 실기 파트에서 연습했던 데이터 셋은 kaggle의 "web page phishing detection dataset" 을 사용했지만https://www.kaggle.com/datasets/shashwatwork/web-page-phishin.. 2024. 11. 14.
반응형