본문 바로가기
반응형

Data Anlaytist18

코호트(Cohort) 란? 데이터 분석 할 때 꼭 알아야하는 개념 데이터 분석을 하다 보면 “코호트 분석”, “코호트 데이터”, “코호트 기반 예측” 같은 말을 자주 듣게 됩니다특히 질병, 건강, 행동 패턴처럼 시간의 흐름에 따른 변화를 분석하려는 분야에서는 코호트 데이터가 필수입니다저도 요즘 의료 데이터를 다루면서 더 자주 접하고 있는데요그래서 오늘은 ‘코호트’라는 개념을 설명드리려 합니다 1. 코호트(cohort)의 정의“공통된 특성을 가진 사람들을 일정 기간 동안 추적 조사하는 집단” [ 예시 ]2000년대 초반에 40~69세였던 사람들을 2025년까지 20년간 매년 조사한다 → 이것이 바로 하나의 코호트같은 지역(예: 안산, 고창)에 사는 사람들 중 특정 질병을 갖지 않은 상태로 시작해서 10년 뒤 누가 어떤 병에 걸렸는지 기록한다 → 역시 코호트즉, 코.. 2025. 7. 22.
RandomForest vs XGBoost에서 임계값(Threshold)은 어떻게 다를까? 실전에서 임계값은 어떻게 조절할까?예측 결과를 predict_proba()로 얻은 후, 직접 임계값을 적용해보는 것이 일반적이에요.예를 들어 유든 인덱스를 기반으로 최적 임계값을 찾으려면 아래와 같이 작성할 수 있어요. 지난 글에서는 유든 인덱스를 통해 최적의 임계값(threshold)을 찾는 방법을 소개했어요.이제는 실전에서 많이 쓰이는 모델인 RandomForest와 XGBoost를 기준으로, 임계값이 어떤 식으로 다르게 적용되는지 살펴보겠습니다 유든인덱스과 threshold의 정의 및 차이모델의 진짜 실력은 어디서 갈린다? Threshold와 유든 인덱스 완벽 이해하기머신러닝에서 이진 분류 모델을 사용할 때, 우리는 흔히 **0.5를 기준(threshold)**으로 삼아 예측 확률이 크면 양성.. 2025. 7. 16.
유든인덱스과 threshold의 정의 및 차이 모델의 진짜 실력은 어디서 갈린다? Threshold와 유든 인덱스 완벽 이해하기머신러닝에서 이진 분류 모델을 사용할 때, 우리는 흔히 **0.5를 기준(threshold)**으로 삼아 예측 확률이 크면 양성(1), 작으면 음성(0)으로 분류하곤 합니다.하지만 이 기준은 항상 최선일까요?오늘은 모델 성능을 더 정확히 판단하고,가장 적절한 분류 기준을 설정하기 위한 방법,바로 threshold 조정과 유든 인덱스(Youden’s Index)에 대해 알아봅니다. 1️⃣ Threshold란?Threshold는 모델이 예측한 확률을 기준으로‘양성’과 ‘음성’을 나누는 경계값입니다.예측 확률 > threshold → 양성(1)예측 확률 ≤ threshold → 음성(0)기본값으로 0.5를 많이 사용하지만,데.. 2025. 7. 2.
머신러닝 분류모델 평가 방식 "유든인덱스"의 중요성 정확도만 보면 놓친다?유든 인덱스(Youden’s Index)로 보는 진짜 모델 성능머신러닝 분류 모델을 평가할 때, 가장 먼저 보는 지표는 아마도 정확도(accuracy)일 거예요하지만 정확도만으로 모델의 성능을 평가하면 잘못된 결론에 도달할 수 있습니다특히 클래스 불균형 상황에서는 더욱 그렇죠그래서 오늘은정확도보다 더 정밀하게 모델의 성능을 평가할 수 있는 지표바로 유든 인덱스(Youden’s Index)에 대해 알아보겠습니다 1️⃣ 유든 인덱스란?유든 인덱스(Youden’s Index)는 이진 분류 모델에서민감도(Sensitivity)와 특이도(Specificity)를 동시에 고려해모델이 얼마나 잘 구분하는지를 하나의 수치로 요약하는 평가 지표입니다 Youden’s Index = Sensit.. 2025. 6. 28.
반응형