FP2 평가 메트릭 TP -> True를 True로 예측 TN -> False을 False로 예측 FP -> False을 True로 예측 FN -> True를 False로 예측 Accuracy (정확도): 예측이 정답과 얼마나 정확한가? 맞춘 True (TP) & False (TN) 수 Recall (재현율): 찾아야 할 것중에 실제로 찾은 비율은? 실제로 True인 데이터를 모델이 True라고 인식한 비율 TP / (TP+FN) True를 True로 예측 + True를 False로 예측 FN: 보안, 의학 분야에서 중요 Precision (정밀도): 예측한 것중에 정답의 비율은? 예측한 것 (abuser) 중에 정답 비율 TP / (TP+FP) True로 예측했는데 False이었음 F1 Score : 정밀도와 재현율의 조.. 2023. 12. 20. Active Learning: UNKNOWN 데이터 라벨링 어뷰저/노말 유저가 일부 라벨링 되어 있는 데이터셋에서 unknown 데이터를 라벨링하기 위한 실험을 진행하였었다. 전체 플젝 진행 과정은 아래와 같으며, 1. EDA 분석으로 확실한 Normal/Abuser 유저를 판별 2. Active learning으로 unknown 데이터를 라벨링 3. Validation: RandomForestClassifier를 이용하여 트리 구조 확인 EDA 분석 결과를 토대로 구축한 학습용 데이터셋을 Active Learning으로 학습한 내용을 정리하려 한다. 1. Active Learning 데이터의 분포에서 라벨의 decision boundary에 위치하여 모델이 판단하기에 어려운 데이터 위주로 학습해나가는 방식. model.predict_prob에서 class들의 .. 2023. 12. 20. 이전 1 다음