본문 바로가기
자격증/빅데이터분석기사

빅데이터분석기사 실기 1과목 head, info, describe, shape, dtypes, astype, 최소값/최대값/최빈값, 변수 개수 구하기 정리 캐글 데이터 활용

by goemgoem-i 2024. 11. 7.
반응형

빅데이터분석가 실기는 실기라고 읽고 암기라도 쓴다,,,

사실 누가 이걸 외워서 하나,,모르면 그냥 구글링하고 챗한테 질문하는거지 ㅎ

아무튼 고생고생해서 딴 필기 또 볼 순 없으니 1과목부터 외워야할 것 들을 정리해보겠다

 

앞으로 작성할 코드의 참고 데이터는 kaggle의 "web page phishing detection dataset" 이다

https://www.kaggle.com/datasets/shashwatwork/web-page-phishing-detection-dataset

 

Web page Phishing Detection Dataset

Detect Phishing in Web Pages

www.kaggle.com

 

 

import문
필수로 불러와야하는 구문 두가지
import pandas as pd 
import numpy as np

 

df정의
df = pd.read_csv("dataset_phishing.csv")

dataframe의 줄임말

 

 

head()
전체적인 행과 열 파악 가능
df.head() #기본 5행

 

print(df.head()) #df.head보다 모양이 안예쁨 하지만. 시험에선 print를 쓰자

 

 

dtypes 
데이터 타입 확인
df.dtypes

 

astype
데이터 타입 변경
df.astype("ip":"object")

 

그럼 ip 타입이 object로 변경됨 

df.astype("ip":"object", "url":"int")

이런식으로 두 개 이상을 변경도 가능 

 

 

 

df.shape
데이터 프레임 행렬

 

 

mean() / median() / mode()
평균 / 중앙 / 최빈값 
mean = df["length_url"].mean() #평균
median = df["length_url"].median() #중앙
mode = df["length_url"].mode() #최빈값

 

 

최빈값에서 번호와 값 중 값만 가져올려고 할 경우 

print(mode[1]) 

 

 

value_counts
변수 개수 구하기 

 

반응형