반응형
지난 블로그에 이어서 산포도를 나타내는 함수들에 대해서 연습해볼 예정이다
앞으로 작성할 코드의 참고 데이터는 kaggle의 "web page phishing detection dataset" 이다
https://www.kaggle.com/datasets/shashwatwork/web-page-phishing-detection-dataset
var() / std()
분산 / 표준편차
분산은 var()
표준편차는 std()
IQR / abs()
사분위수 / 절댓값
Q1 = df['변수명'].quantile(0.25)
Q2 = df['변수명'].quantile(0.5)
Q3 = df['변수명'].quantile(0.75)
max() / min() / sum(numeric_only=True)
최대 최소 범위 구하기
.max() 최댓값 - 해당 변수의 가장 큰 값
.min() 최솟값 - 해당 변수의 가장 작은 값
범위 = 최댓값 - 최솟값
.sum(numeric_only=True) 합계 - 해당 변수의 모든 값의 총합
주의) 이번 시험 부터 corr 이나 sum 함수 사용시 numeric_only=True 설정 필수!!! 안쓰면 에러남
반응형
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
빅데이터분석기사 실기 1과목 데이터 표준화, min-max scaling,데이터 합치기 (0) | 2024.11.15 |
---|---|
빅데이터분석기사 실기 1과목 실기 데이터 결측치, 이상치, 중복값 처리 (0) | 2024.11.14 |
빅데이터분석기사 실기 1과목 groupby, 인덱싱, 열 추가/제거, 필터링, 정렬, np.where(조건문) (0) | 2024.11.13 |
빅데이터분석기사 실기 2과목 분류모델 데이터 전처리 및 모델링 진행 (3) | 2024.11.09 |
빅데이터분석기사 실기 1과목 head, info, describe, shape, dtypes, astype, 최소값/최대값/최빈값, 변수 개수 구하기 정리 캐글 데이터 활용 (0) | 2024.11.07 |