- 데이터 분석이 목적이 되지 않도록 '왜?'를 항상 생각하기
- 단순히 데이터를 보는 방식이나 분석 방법론, 통계지식에 매몰되지 않기
- 데이터 리터러시는 올바른 질문을 던질 수 있도록 만들어 준다
데이터 리터러시는 올바른 질문을 던질 수 있도록 만들어 줌
데이터 분석에 대한 착각
- 데이터를 잘 분석하면 문제, 목적, 결론이 나올 것이라고 생각
- 데이터를 잘 가공하면 유용한 정보를 얻을 수 있다고 생각
- 분석에 실패하면 방법론, 스킬이 부족한 것이라고 생각
☑️ 심슨의 역설 (Simpson’s Paradox)
- 심슨의 패러독스란 '부분'에서 성립한 대소 관계가 그 부분들을 종합한 '전체'에 대해서는 성립하지 않는 모순적인 경우를 말한다.
- 전체에 대한 결론이 언제나 개별 집단에 그대로 적용되는 것은 아님
- 데이터에 기반한 결론이라고 해서 이를 맹목적으로 받아들여서는 안됨
☑️ 시각화를 활용한 왜곡
☑️ 샘플링 편향 (Sampling Bias)
☑️ 상관관계와 인과관계
- 상관관계
- 두 변수가 얼마나 상호 의존적인지를 파악하는 것을 의미
- 파악 방법은 한 변수가 증가하면 다른 변수도 따라서 증가/감소하되 그 추이를 따름
- 인과관계
- 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태를 의미
- 원인과 결과가 명확한 것
- 상관관계는 인과관계가 아닌 것을 항상 유의해야 함
- 상관관계만으로 섣불리 의사결정 하지 않기
- 양쪽을 모두 활용하여 합리적인 의사판단 하기
☑️ 데이터 분석에 대한 접근법
- 문제 및 가설정의
- 데이터 분석
- 결과 해석 및 액션 도출
- 위 단계 중 ‘생각’이 주요한 단계에서 데이터 리터러시가 필요
- 데이터 분석이 목적이 되지 않도록 ‘왜?’를 항상 생각해야 함
☑️ 문제 정의란?
- 데이터 분석 프로젝트의 성공을 위한 초석
- 분석하려는 특정 상황이나 현상에 대한 명확하고 구체적인 진술
- 프로젝트의 목표를 설정하고 분석 방향을 설정
문제 정의를 위한 방법론:
1. MECE (Mutually Exclusice, Collectively Exhaustive)
- 문제 해결과 분석에서 널리 사용되는 접근 방식
- 문제를 상호 배타적이면서 전체적으로 포괄적인 구성요소로 나누는 것: 중복, 누락이 있으면 안됨
- MECE를 통해 복잡한 문제를 체계적으로 분해하고, 구조화된 방식으로 분석할 수 있음
* 잘못된 예시 *
- 사람 -> 남성 / 여성 / 아저씨 : 남성 & 아저씨 중복
- 영화 장르 -> 액션 / 스릴러 / 공포 : 멜로 / 코미디 등 누락 장르 존재
- 자동차 -> SUV / 세단 / 쿠페 / 현기차 : 분류 기준이 다름 , 자동차 종류 vs 브랜드
- 3학년 3반 학급원 -> 영어 우수 / 수학 우수 : 분류 기준 불명확, 중복 & 누락 정보 존재
2. Logic Tree
- MECE 원칙을 기반으로 복잡한 문제를 더 작고 관리하기 쉬운 하위 문제로 분해하는데 사용
- 상위 문제로부터 시작하여 하위 문제로 계층적 접근
- 일반적으로 도표 형식으로 표현되어 쉽게 파악할 수 있음
- 로직트리는 정해진 답이 없으며, 사용자가 어떤 기준으로 나누냐에 따라 그 깊이와 넓이가 달라짐
- 인과 관계의 순서는 작은가지 → 큰 가지
Cheat Sheet
- 앱 서비스에 적용하기 위해 변경해 본다면? (비즈니스에 따라서 정의가 달라짐!)
- 세그먼트 분류
- 라이트유저, 일반유저, 헤비유저 > 구매 전 고객, 재구매 고객, VIP 고객 ex) 배달의 민족 고마운분, 귀한분, 더귀한분, 천생연분
- 캡슐 점유율
- 해당 서비스 시장 점유율로 변화
- 세그먼트 분류
- 문제 정의는 풀고자 하는 것을 명확하게 정의하고
- 이것을 해결하기 위한 데이터 분석의 방향성을 정하고 결과를 정리하고 해석하여
- 더 나아지기 위한 새로운 액션 플랜을 수립하기 위함
- 문제정의의 핵심은 So What?, Why So?
- So what?
- 수집한 정보와 소재에서 ‘결국 어떻다는 것인지’를 알아내는 작업
- 그래서, 따라서, 이렇듯 앞에 오는 정보나 소재에서 과제의 답변에 맞는 중요한 핵심을 추출하는 작업
- 나타난 현상을 바탕으로 과제에 비추어 말할 수 있는 내용의 핵심을 추출하는 작업
- Why So?
- 왜 그렇게 말할 수 있는지
- 구체적으로 무슨 뜻인지를 검증하고 확인하는 작업
- So what?한 요소의 타당성을 자료 전체 혹은 그룹핑한 요소로 증명할 수 있다는 사실을 검증하는 작업
- 도식화한 로직 트리가 위 법칙에 맞는지 확인해보기
- So what?
☑️ 문제정의 팁
- 결과를 공유하고자 하는 사람이 누구인지 정의하기
- 결과를 통해 원하는 변화를 생각하기
- 회사 소속이라면, 경영자의 입장에서 보려고 노력
- 많은 사람들과 의견을 나눠보는 것도 방법
- 반드시 혼자서 오래 고민해보는 시간을 가질 것
'데이터 분석' 카테고리의 다른 글
문해력: 지표 설정 (1) | 2024.01.03 |
---|---|
문해력: 정량적 데이터 (0) | 2024.01.03 |
Chapter 1 미니 프로젝트: 뉴욕맛집 (0) | 2023.12.21 |
평가 메트릭 (0) | 2023.12.20 |
pandas: map, apply, transform, agg (0) | 2023.12.19 |