본문 바로가기
반응형

Data Anlaytist8

데이터 분석 시, 결측치(missing value)를 어떻게 처리할 수 있을까? CS 면접 준비하다가 나온 질문데이터를 다루는 학과다 보니 결측치를 다루는게 항상 고민인데한 번도 글로 작성해본 적 이 없어서 한 번 작성해 볼 까 한다 결측치란?간단히 말해서 값이 비어 있는 상태예를 들어, 설문조사에서 어떤 응답자가 ‘나이’를 입력하지 않았다면, 그 항목은 결측치로 남게 된다 import pandas as pddf = pd.DataFrame({ '이름': ['철수', '영희', '민수'], '나이': [25, None, 30]})print(df) 결과 :  이름 나이0 철수 25.01 영희 NaN2 민수 30.0    결측치는 왜 생길까?사용자가 값을 입력하지 않음 (설문조사, 가입 폼 등)시스템 오류로 누락됨데이터 수집 범위에 포함되지 않음 (예: 성.. 2025. 3. 31.
A/B 테스트가 왜 필요할까? 최근에 CS 스터디로 공부를 하는데데이터 분석가 면접 질문에 대해서도 같이 알아봤다 그렇게 매번 데이터 분석가 공고에 뜨는 A/B테스트 이제는 자주 찾아봐서 잘알지만그래도 한 번 작성해보겠다  A/B 테스트란?두 가지 버전(A와 B)을 실제 사용자에게 나눠 보여준 후, 어떤 것이 더 효과적인지 데이터를 통해 비교하는 실험 방법 예를들어 버튼 색이 파란색일 때와 빨간색일 때, 어느 쪽이 더 많이 클릭될까?제목 문구를 바꿨을 때, 어느 쪽이 더 많은 가입을 유도할까?이처럼 사소해 보이는 요소 하나가 전환율이나 매출에 큰 영향을 줄 수 있기 때문에,A/B 테스트는 마케터, 디자이너, 개발자 모두가 자주 활용하는 도구다   A/B 테스트의 진행과정1️⃣ 실험할 요소를 정한다먼저 "무엇을 비교할 것인지" 정해야 .. 2025. 3. 26.
vscode 소스 제어 활용 / 병합 충돌 해결하기 보통 vscode를 활용해서 코드를 많이 쓰니까github에 파일 올린다고 하면 터미널에 git add 블라블라,,, git commit 블라블라,,이렇게 써어 해야했는데소스 제어를 활용하면 보다 편하게 활용이 가능하단걸 봤다   병합된거 보면 문제가 없는데터미널을 보면 에러가 나있다    GitHub의 main 브랜치에 업데이트가 있고, 로컬과 충돌이 발생한 경우로컬에서 변경한 내용(README.md 등)이 GitHub의 최신 버전과 다르면 충돌이 발생할 수 있음.로컬에서 커밋하지 않은 변경 사항이 존재하는 경우git status를 실행했을 때 Changes not staged for commit 같은 메시지가 뜨면 해결 필요. 보통 이렇게 충돌나면 위와 같이 두가지라고 하던데나 같은 경우는 전자다gi.. 2025. 2. 6.
melt()를 활용한 데이터 변환과 플롯 시각화 요즘 급 영논문 작성 때문에 지하철 혼잡도를 시각화하고 있는데거기서 melt()라는 함수가 헷갈려서 한 번 정리해볼 까 한다     1. melt()란?  melt()는 Pandas 라이브러리에서 제공하는 함수로, **wide-format(넓은 형식)**의 데이터를 **long-format(긴 형식)**으로 변환하는 데 사용기본적으로 여러 개의 컬럼이 개별적인 정보를 나타내는 경우, 이를 하나의 컬럼으로 변환하여 데이터를 더 직관적이고 분석하기 쉽게 만드는 역할   - 기본 사용pd.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value')  frame: 변환할 데이터프레임 id_vars: 그대로 유지할 컬럼 (예: 기준 변.. 2025. 2. 5.
반응형