본문 바로가기
반응형

분류 전체보기103

빅데이터분석기사 실기 2과목 회귀모델 데이터 모델링 https://toonovel.tistory.com/entry/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-2%EA%B3%BC%EB%AA%A9 빅데이터분석기사 실기 2과목 분류모델 데이터 전처리 및 모델링 진행2과목에서는 1과목에서 배운 내용을 바탕으로 데이터 결측치 및 이상치를 처리하고 분류모델을 적용해서 정확도 값을 산출해보자   https://www.kaggle.com/datasets/shashwatwork/web-page-phishing-detection-datastoonovel.tistory.com이전에 2과목 분류모델을 올렸었는데 마지막 모델링 돌리는 부분 빼고는 완전 동일해서 회귀모델 성능 값 출력하는 방식.. 2024. 11. 17.
데이터 웨어하우스 VS 데이터 레이크 / ETL VS ELT 데이터웨어하우스는 기본적으로 클라우드가 대세임고정비용 옵션과 가변비용 옵션 데이터 레이크  - 구조화된 데이터 + 비구조화된 레이크- 원본 그대로 저장하는 스토리지 - 데이터 웨어하우스보다 몇배는 더 큰 스토리지 - 가격이 저렴함 - ELT 사용 예시 도구 : AWS S3  / Azure Data Lake / Google Cloud Storage / Hadoop HDFS       데이터 웨어하우스   - 구조화된 데이터를 저장하는 중앙 저장소- 미리 정의된 스키마에 따라 정제 및 조직화- 가격이 비쌈 ( 필요한 정보만 저장하고 처리 )- 보통 bi 툴들은 데이터 웨어하우스를 백엔드로 사용- ETL 사용  예시 도구: Amazon Redshife / Google BigQuery / Snowflake / .. 2024. 11. 17.
빅데이터분석기사 실기 1과목 날짜시간 데이터 index 날짜 시간 데이터는 별도의 파일이 따로 없기 때문에 dataframe 을 새로 생성해서 연습해보겠다 #데이터 만들기df = pd.DataFrame( { '날짜': ['20230105', '20230105', '20230223', '20230223', '20230312', '20230422', '20230405'], '물품': ['A', 'B', 'A', 'B', 'A', 'B','A'], '판매수' : ['5','10', '15', '15', '20', '25', '40'], '개당수익': [500, 600, 500, 600, 600, 700, 600]})df   1) 날짜 다루기먼저 df로 전체적인 데이터 파악    df.info()로 데이터 특성 파악날자가 object라서 숫자로.. 2024. 11. 16.
빅데이터분석기사 실기 1과목 데이터 표준화, min-max scaling,데이터 합치기 앞으로 작성할 코드의 참고 데이터는 kaggle의 "web page phishing detection dataset" 이다https://www.kaggle.com/datasets/shashwatwork/web-page-phishing-detection-dataset Web page Phishing Detection DatasetDetect Phishing in Web Pageswww.kaggle.com 데이터 scaling 데이터 표준화StandardScaler() (기본값 - 평균 / 분산) 한 값들로 변경됨    최소최대 정규화MinMaxScaler 최대최소 정규화는 0과 1사이의 값이 나옴     데이터 합치기  1) 행기준 합치기df,loc[행범위, 열범위] df_sum = pd.concat( [.. 2024. 11. 15.
반응형