본문 바로가기
반응형

Data Anlaytist10

불순도 감소 (Impurity Decrease) 불순도(impurity)는 말 그대로 "데이터가 얼마나 섞여 있는가"를 나타내는 지표트리 기반 모델에서는 데이터를 분할(split) 할 때마다 이 "불순도"를 줄이는 방향으로 나누려고함즉, 하나의 노드 안에 한 클래스가 압도적으로 많아지게 만드는 분할이 좋다고 판단-> 클래스 0 또는 클래스 1 중 하나로 쏠린 그룹을 만드는 것을 선호 1. 불순도 감소 진행 방식어떤 노드에 100개의 샘플이 있다고 할 때이 중에서 클래스가 1인 게 50개, 클래스 0인 게 50개그럼 이건 아주 섞여 있는 상태 = 불순도가 높음 근데 어떤 변수로 나눴더니:왼쪽 노드: 클래스 1이 45개, 클래스 0이 5개 → 거의 한 쪽 클래스오른쪽 노드: 클래스 0이 45개, 클래스 1이 5개 → 역시 거의 한 쪽 클래스이런 식으로 .. 2025. 4. 17.
RFE(Recursive Feature Elimination)와 RFECV (RFE with Cross-Validation) 개념 정리 RFE (Recursive Feature Elimination)모델의 성능을 기준으로 중요도가 낮은 특성을 반복적으로 제거해가며, 최종적으로 지정한 수의 특성을 선택하는 방식 [절차]1. 모델을 학습2. 변수 중요도(rank 또는 coefficient)를 기준으로 가장 중요하지 않은 특성 제거3. 반복해서 지정된 개수만큼 남을 때까지 수행[변수 개수 설정]- n_features_to_select로 사용자가 직접 정함ex) n_features_to_select=10이면, 최종적으로 10개만 남김[중요도 판단 기준]- 모델에 따라 다름- 선형 모델: 절댓값이 작은 계수(coefficient)- 트리 기반 모델: feature importance 값→ 가장 중요도가 낮은 변수부터 하나씩 제거됨[삭제 되는 개.. 2025. 4. 11.
데이터 분석 시, 결측치(missing value)를 어떻게 처리할 수 있을까? CS 면접 준비하다가 나온 질문데이터를 다루는 학과다 보니 결측치를 다루는게 항상 고민인데한 번도 글로 작성해본 적 이 없어서 한 번 작성해 볼 까 한다 결측치란?간단히 말해서 값이 비어 있는 상태예를 들어, 설문조사에서 어떤 응답자가 ‘나이’를 입력하지 않았다면, 그 항목은 결측치로 남게 된다 import pandas as pddf = pd.DataFrame({ '이름': ['철수', '영희', '민수'], '나이': [25, None, 30]})print(df) 결과 :  이름 나이0 철수 25.01 영희 NaN2 민수 30.0    결측치는 왜 생길까?사용자가 값을 입력하지 않음 (설문조사, 가입 폼 등)시스템 오류로 누락됨데이터 수집 범위에 포함되지 않음 (예: 성.. 2025. 3. 31.
A/B 테스트가 왜 필요할까? 최근에 CS 스터디로 공부를 하는데데이터 분석가 면접 질문에 대해서도 같이 알아봤다 그렇게 매번 데이터 분석가 공고에 뜨는 A/B테스트 이제는 자주 찾아봐서 잘알지만그래도 한 번 작성해보겠다  A/B 테스트란?두 가지 버전(A와 B)을 실제 사용자에게 나눠 보여준 후, 어떤 것이 더 효과적인지 데이터를 통해 비교하는 실험 방법 예를들어 버튼 색이 파란색일 때와 빨간색일 때, 어느 쪽이 더 많이 클릭될까?제목 문구를 바꿨을 때, 어느 쪽이 더 많은 가입을 유도할까?이처럼 사소해 보이는 요소 하나가 전환율이나 매출에 큰 영향을 줄 수 있기 때문에,A/B 테스트는 마케터, 디자이너, 개발자 모두가 자주 활용하는 도구다   A/B 테스트의 진행과정1️⃣ 실험할 요소를 정한다먼저 "무엇을 비교할 것인지" 정해야 .. 2025. 3. 26.
반응형