데이터 분석

대출 가입 예측 모델 실습: 질문과 튜터님의 답변

땅호720 2024. 2. 6. 18:30

<질문>

먼저, 저는 이번 과제에서 전처리로 스케일링 방법을 다르게 적용해보고, 카테고리 컬럼을 라벨링하는 방식으로 실험해봤습니다!
하지만 결론적으로 dummy를 적용해주는 것이 더욱 성능이 좋게 나왔습니다.

  1. 카테고리 컬럼 중 yes/no로만 나누어지는 default, loan, housing 피쳐들은 1과 0으로 라벨링을 해줘봤지만 dummy를 사용했을 때 성능이 더 좋았습니다. 둘의 차이를 모델이 어떻게 학습하는지 알 수 있나요? 현업에서도 1과0으로 라벨링하는 것보다 dummy를 더 많이 적용하는지 궁금합니다!
  2. 대출 가입 예측 모델에서는 education (교육 수준) 피쳐가 순서형으로는 가치가 없다고 해석하면 될까요?
    • education 피쳐에서 기본, 2차 3차 교육으로 나누어진다 생각해서 0(nan),1,2,3으로 나누어주고 minmax scaling을 해주었습니다. 하지만 이것도 더미로 나누었을 때 더 성능이 좋았습니다.
  3. 결측치를 제거하거나 다른 값으로 치환해주기 애매한 경우에는 dummy로 불타입 피쳐를 생성해주는 게 현업에서, 일반적으로 성능이 좋은 건지 궁금합니다!
    • education 또는 poutcome에서 결측치가 있어서 각각을 0과 other로 묶어주었는데요, 이렇게 묶어주는 것보다는 dummy를 적용하여 관련 피쳐에서 false로 표기되는 작업이 더욱 성능이 좋았습니다.
  4. 마지막으로, 현업에서도 오버샘플링을 많이 하는지 궁금합니다! 현업에서 직접 데이터를 뽑아서 학습용으로 구성하게 된다면, 데이터가 충분할 것이라 생각돼서 케이스별로 구성하면 될 것이라 생각이 들었습니다. 이러한 경우에 분류/군집화에서는 각 카테고리 비율은 1:1 정도로 맞추나요?

 

<답변>

머신러닝의 심화로 들어갈수록 ~~하는게 좋다라는 것은 일반적인 상황에서 말하는 것이며 데이터와 모델이 따라서 해석이 달라질 수 있다는 점 미리 알려드립니다.

일반적인 상황: 선형모델을 사용하기 위한 가정(선형성, 독립성, 등분산성)이 만족되는 사례들
=> 선형성, 독립성, 등분산성 등이 사전 가정이 성립하지않으면 선형모델의 특장점도 당연히 기대하기 힘듦

 

(1,3번) 로지스틱 모델을 사용하신 것 같은데 선형모델은 두 변수간의 상호작용(interaction)을 일으킬 수 있습니다. 무슨 말이냐면 원래 선형모델은 각 변수가 독립적이라고 가정하는데,  대출유무와 소득수준은 서로 연관이 있을 수 있습니다(저소득자는 대출이 많다던가 등..) 따라서 해당 변수들을 라벨링하여 데이터를 처리하면 이 상호작용을 일으키는 것을 막지 못하여 예측력이 떨어질 수 있습니다. 이를 방지하기 위해 각 변수를 독립적으로 설정하는 더미변수를 선언하여 예측력이 높아질 수 있습니다.

사실 이진분류에서 레이블링이랑 더미변수 생성이랑 차이가 없다는게 이론적으로 맞는데..  성능이 차이가 나는게 좀 신기하긴하네요

 

(2번) education은 1st, 2nd, 3rd이기 때문에 범주형- 순서형 자료라고 1차적으로 생각할 수 있습니다만, 이 또한 1,3번의 이유로 더미변수가 더 좋을 수 있습니다.

라벨링하게 되면 상호작용을 일으키므로 독립성을 잃게됨.

 

(4번) 오버샘플링 많이합니다.  데이터는 늘 이쁘지 않고 편향되어있기 때문에 이를 맞추기 위해 데이터 불균형 해소는 자주 일어나는 상황입니다. 각 카테고리 1:1이면 가장 이상적입니다.