본문 바로가기
데이터 분석

13단원

by 땅호720 2024. 8. 12.

1. 치오마가 그 전 며칠 동안 공부를 했다면, 큰 시험 전날을 쉬면서 보내는 것이 공부하면서 보내는 것보다 시험점수가 더 높게 나온다는 가설을 세웠습니다.

치오마는 80명의 학생을 임의로 실험군과 대조군으로 나누었습니다. 실험군은 시험 전날 하루를 휴식으로 보냈고, 대조군은 온종일 공부를 했습니다.
이 실험에서 실험군의 평균 점수는 대조군의 평균 점수보다 4점이 높다는 결과가 나왔습니다. 결과가 임의의 확률에 의해 설명될 수 있는지 확인하기 위해서, 과학자들은 1000개의 재 임의화한 데이터(평균 간 차를 1점에서 반올림하여)의 결과를 정리해 다음과 같은 표를 만들었습니다.
 
시뮬레이션에 따르면, 실험군의 평균이 대조군의 평균보다 4점 이상일 확률은 얼마일까요? => 12.6%
 

 

실험군의 평균이 대조군의 평균보다
  • 4점 더 많은 시뮬레이션 54개
  • 5점 더 많은 시뮬레이션 39개
  • 6점 더 많은 시뮬레이션 25개
  • 7점 더 많은 시뮬레이션 8개

1000개 중 126개의 시뮬레이션이 있음.

따라서 시뮬레이션은 실험군의 평균이 대조군의 평균보다 4점 이상 많을 확률:

126 / 1000 => 12.6%

 

구한 확률은 5%보다 높으므로, 결과는 유효하지 않다고 판단.

 

데이터를 임의로 두 집단으로 나누면, 집단의 평균의 차가 4점 이상인 경우는 약 12.6%

따라서 관찰된 실험군의 이점은 대상의 임의 분류로서 타당하게 설명될 수 있음

  • 결과는 임의의 확률에 의한 것일 수 있고 아무것도 확실하게 증명하지 않음
  • 결과는 하루 더 공부하는 것보다 시험 전에 쉬는 것이 시험점수가 더 높게 나옴을 나타냄

 

 

2. 심리학자는 TV의 음식 광고가 어린이들에게 과자를 더 많이 먹게 만든다는 가설을 세웠습니다.

심리학자는 500명의 어린이들을 처치 집단과 통제 집단으로 나누었습니다. 어린이들에게는 개인실에서 크래커가 담긴 통과 함께 중간광고가 있는 만화를 보게 했습니다. 실험군은 음식 광고(대부분 과자 광고), 대조군은 음식 광고가 아닌 것(게임과 TV 프로그램 광고)을 보았습니다. 어린이가 만화를 다 보고 나면 연구원들은 어린이가 크래커 몇 그램을 먹었는지 측정하였습니다.
이 실험에서 실험군이 먹은 크래커의 평균은 대조군이 먹은 크래커의 평균보다 8g 많았습니다. 결과가 임의의 확률에 의해 설명될 수 있는지 확인하기 위해서, 연구원들은 1000개의 재 임의화한 데이터(평균간 차를 2g에서 반올림하여)의 결과를 정리해 다음과 같은 표를 만들었습니다.
시뮬레이션에 따르면, 실험군의 평균이 대조군의 평균보다 8g 이상일 확률은 얼마일까요?

실험군의 평균이

  • 8g 더 많은 시뮬레이션은 14개
  • 10g 더 많은 시뮬레이션은 4개

더해보면, 1000개 중 18개의 시뮬레이션이 있음.

따라서 시뮬레이션은 실험군의 평균이 대조군의 평균보다 8g 이상 많을 확률이:

18/1000 => 1.8%

 

구한 확률은 5%보다 낮음. 따라서 결과는 유효하다고 판단

 

데이터를 임의로 두 집단으로 나누면, 집단의 평균의 차가 8g 이상인 경우는 약 1.8%

따라서 관찰된 차이를 임의 분류 탓으로 돌리는 것은 타당하지 않음.

처치의 차이가 관찰된 결과의 원인이라고 보는 것이 더 타당

  • 결과는 음식 광고가 어린이들에게 과자를 더 많이 먹는다는 것을 나타냄
  • 결과는 임의의 확률에 의한 것일 수 있고 아무것도 확실하게 증명하지 않음

 

3. 지오바나는 평소에 B 버스로 출근하는데, 이제 A 버스로 출근하는 것이 더 빠르다고 생각합니다.

지오바나는 일하는 날 50일을 임의로 실험군과 대조군으로 나눴습니다. 실험군인 날에는 A 버스를 탔고 대조군인 날에는 B 버스를 탔습니다. 지오바나는 매일 걸리는 시간을 쟀습니다.
이 실험에서 A 버스로 걸리는 시간의 중앙값은 B 버스로 걸리는 시간의 중앙값보다 8분 적었습니다. 결과가 임의의 확률에 의해 설명될 수 있는지 확인하기 위해서, 지오바나는 1000개의 재 임의화한 데이터(중앙값간 차를 2분에서 반올림하여)의 결과를 정리해 다음과 같은 표를 만들었습니다.

 

시뮬레이션에 따르면 실험군의 중앙값이 대조군의 중앙값보다 8분 이상으로 적을 확률은 무엇인가요?
 

 

실험군의 중앙값이 대조군의 중앙값보다

  • 8분 적은 시뮬레이션 85개
  • 10분 적은 시뮬레이션 8개

더해보면, 1000개 중 93개 시뮬레이션.

따라서 확률은 93 / 1000 => 9.3%

 

구한 확률이 5%보다 높으므로, 결과가 유효하지 않다고 판단.

 

데이터를 임의의 두 집단으로 나눈다면, 집단의 중앙값의 차가 8분 이상인 경우는 약 9.3%

따라서 결과는 임의의 확률에 의한 것일 수 있고 아무것도 확실하게 증명하지 않음

 

'데이터 분석' 카테고리의 다른 글

0731  (0) 2024.07.31
0722  (0) 2024.07.23
0715  (0) 2024.07.15
0708  (0) 2024.07.08
active: 최근 90일 이내 방문한 유저  (0) 2024.04.24