본문 바로가기
자격증/빅데이터분석기사

빅데이터분석기사 실기 1과목 데이터 표준화, min-max scaling,데이터 합치기

by goemgoem-i 2024. 11. 15.
반응형


앞으로 작성할 코드의 참고 데이터는 kaggle의 "web page phishing detection dataset" 이다

https://www.kaggle.com/datasets/shashwatwork/web-page-phishing-detection-dataset

 

Web page Phishing Detection Dataset

Detect Phishing in Web Pages

www.kaggle.com

 

데이터 scaling

 

데이터 표준화
StandardScaler()

 

(기본값 - 평균 / 분산) 한 값들로 변경됨 

 

 

 

최소최대 정규화
MinMaxScaler

 

최대최소 정규화는 0과 1사이의 값이 나옴 

 

 

 

 

데이터 합치기 

 

1) 행기준 합치기

df,loc[행범위, 열범위]

 

df_sum = pd.concat( [df1, df2], axis = 0) 

묶음 일 때는 [] 괄호 꼭 해주기 

 

 

 

 

 

2) 열기준 합치기

 

df1 = df.loc[ : , 'length_url' : 'nb_dots' ]
df2 = df.loc[ : , [ 'nb_at' , 'nb_qm' ] ]

 

* 행 부분은 안쓰면 : 작성

범위 설정할 때는 []괄호 필요 없이 :

특정 열만 가져올려면 각각 적고 [] 꼭 작성

 

 

 

axis = 1 은 열기준

반응형