모델 학습2 Bagging VS Boosting 의사결정규칙을 트리 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석 방법 장점 - 쉽고 해석하기 용이 - 다중분류와 회귀에 모두 적용 가능 - 이상치에 견고, 데이터 스케일링이 불필요 (데이터의 상대적인 순서를 고려해서) 단점 - 트리가 너무 깊으면 과적합될 수 있음 - 훈련 데이터에 민감하여 작은 변화가 노이즈에도 트리의 구조가 크게 달라짐 (불안전성) -> random state 고정 (42) Bagging Bootstrapping + Aggregating의 약어 데이터가 부족한 문제를 해결하기 위한 방법론 데이터를 복원 추출하여 유사하지만 다른 데이터 집단(표본)을 생성 (Bootstrapping) 이 여러 개의 표본을 기반으로 각각의 DT모델을 개발한 후에 예측,분.. 2024. 2. 23. Active Learning: UNKNOWN 데이터 라벨링 어뷰저/노말 유저가 일부 라벨링 되어 있는 데이터셋에서 unknown 데이터를 라벨링하기 위한 실험을 진행하였었다. 전체 플젝 진행 과정은 아래와 같으며, 1. EDA 분석으로 확실한 Normal/Abuser 유저를 판별 2. Active learning으로 unknown 데이터를 라벨링 3. Validation: RandomForestClassifier를 이용하여 트리 구조 확인 EDA 분석 결과를 토대로 구축한 학습용 데이터셋을 Active Learning으로 학습한 내용을 정리하려 한다. 1. Active Learning 데이터의 분포에서 라벨의 decision boundary에 위치하여 모델이 판단하기에 어려운 데이터 위주로 학습해나가는 방식. model.predict_prob에서 class들의 .. 2023. 12. 20. 이전 1 다음