반응형
앞으로 작성할 코드의 참고 데이터는 kaggle의 "web page phishing detection dataset" 이다
https://www.kaggle.com/datasets/shashwatwork/web-page-phishing-detection-dataset
데이터 scaling
데이터 표준화
StandardScaler()
(기본값 - 평균 / 분산) 한 값들로 변경됨
최소최대 정규화
MinMaxScaler
최대최소 정규화는 0과 1사이의 값이 나옴
데이터 합치기
1) 행기준 합치기
df,loc[행범위, 열범위]
df_sum = pd.concat( [df1, df2], axis = 0)
묶음 일 때는 [] 괄호 꼭 해주기
2) 열기준 합치기
df1 = df.loc[ : , 'length_url' : 'nb_dots' ]
df2 = df.loc[ : , [ 'nb_at' , 'nb_qm' ] ]
* 행 부분은 안쓰면 : 작성
범위 설정할 때는 []괄호 필요 없이 :
특정 열만 가져올려면 각각 적고 [] 꼭 작성
axis = 1 은 열기준
반응형
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
빅데이터분석기사 실기 2과목 회귀모델 데이터 모델링 (0) | 2024.11.17 |
---|---|
빅데이터분석기사 실기 1과목 날짜시간 데이터 index (0) | 2024.11.16 |
빅데이터분석기사 실기 1과목 실기 데이터 결측치, 이상치, 중복값 처리 (0) | 2024.11.14 |
빅데이터분석기사 실기 1과목 groupby, 인덱싱, 열 추가/제거, 필터링, 정렬, np.where(조건문) (0) | 2024.11.13 |
빅데이터분석기사 실기 1과목 데이터산포도 분산, 표준편차, iqr, 절댓값 , 최대최소, 합계 (2) | 2024.11.12 |