본문 바로가기
반응형

Data Anlaytist26

stepwise (스텝와이즈) 변수 선택 종류 스텝와이즈는 “설명변수 후보가 많을 때, 예측력과 해석력을 최대화하는 소수의 변수만 고르는 절차”입니다주로 선형회귀·로지스틱회귀에서 쓰이며, 통계적 검정 또는 정보준거(AIC/BIC)를 기준으로 변수를 추가/제거합니다 언제 쓸까요?변수 후보가 많고, 해석 가능한 소수의 변수 집합이 필요할 때데이터가 그리 크지 않고, **고전적 선형/일반화선형모형(GLM)**을 빠르게 탐색하고 싶을 때보고서/논문 등에서 명확한 선택 절차를 제시해야 할 때단, 예측 정확도가 최우선이면 LASSO/Elastic Net, 트리계열 모델과의 비교를 권장 기준(Criterion)p-value 기반: 유의수준(예: 0.05)으로 변수 추가/제거 결정AIC (Akaike Information Criterion): 적합도–복.. 2025. 11. 10.
Matplotlib vs Seaborn vs Plotly 언제 어떤 걸 써야할까 데이터 분석을 하다 보면, “이 그래프는 어떤 라이브러리로 그려야 하지?”라는 고민을 한 번쯤 하게 됩니다Python에서 가장 많이 쓰이는 시각화 도구는 바로 Matplotlib, Seaborn, 그리고 Plotly인데요이 세 가지는 모두 데이터를 ‘보여주는’ 도구지만, 목적과 강점이 꽤 다릅니다 1. Matplotlib — 시각화의 기본기, 모든 그래프의 뼈대Matplotlib은 가장 기본적인 시각화 라이브러리입니다다른 라이브러리들이 대부분 Matplotlib 위에 만들어졌을 정도로 시각화의 ‘근본’이에요import matplotlib.pyplot as pltplt.figure(figsize=(6,4))plt.plot([1, 2, 3, 4], [2, 4, 6, 8], marker='o')plt.ti.. 2025. 10. 21.
Feature Importance vs SHAP 변수 중요도 진짜 해석법 모델링을 하다 보면 항상 궁금해지는 게 있죠.“이 변수들이 결과에 얼마나 영향을 줬을까?”이를 해석하기 위해 흔히 Feature Importance(변수 중요도)를 봅니다 하지만 최근에는 단순 중요도보다 더 정교한 해석 방법으로SHAP (SHapley Additive exPlanations)이 널리 사용되고 있어요특히 저도 이번 논문에서 같이 적용했답니다ㅎㅎ 오늘은 두 방법의 차이와, 같은 모델에서도 왜 해석이 달라지는지를 비교해볼게요 1. Feature Importance란?모델이 학습할 때 각 변수의 기여도를 계산해“이 변수가 결과 예측에 얼마나 영향을 미쳤는가”를 수치로 보여주는 지표입니다.=예를 들어 랜덤포레스트에서의 중요도는“해당 변수가 불순도를 얼마나 많이 줄였는가”**로 계산돼요 from.. 2025. 10. 13.
API와 일반 데이터의 차이점 구글 api pytyhon 클라이언트 사용방법 Google Cloud Secret ManagerGoogle-api-pyhton-clientsGoogle Calendar, Drive, Gmail 등과 같은 Google 서비스의 API를 활용할 수 있음 1. Google Cloud Console에서 OAuth 2.0 클라이언트 생성 1-1. API 키 생성https://toonovel.tistory.com/entry/youtube-api-toonovel.tistory.com 이전에 게임 데이터 추출하는 프로젝트에서 api를 다룬 적이 있습니다이전 블로그 보시면 api 활용법도 한 번 적어놨었는데요api가 뭔지 일반 데이터들과는 어떻게 다른지 정확하게 다룬 적 없는 것 같아서 이번 기회에 한 번 다뤄 .. 2025. 9. 23.
반응형