안녕하세요~ 질문하나 드립니다!

제가 현재 약 40만건의 데이터를 활용해서 가설 검정(5그룹간 평균차이분석)을 하려하는데요~ 샘플사이즈가 너무 커서 검정력이 너무 세질까봐 Gpower를 이용해서 표본을 추출하였습니다.

여기서 질문이 몇가지 있는데요.

1. 검정력
ANOVA나 Kruskal-wallis 모두 공식을 보았을때 n이 커지면 검정력이 높아질 것으로 보이는데 맞는지요?!

2. sample size
sample size를 추출할때 power, alpha, effect size(중간), 그룹의 수를 이용하는데, 제가 생각했을때는 power를 0.8로 지정하면 sample size가 너무 작아 표본을 대표할 수 없다고 생각이 들어 0.95로 설정하였습니다. 이것이 문제가 될까요? 혹시 문제가 된다면 어떤 값을 넣는것이 알맞을지 궁금합니다.

3. 표본의 대표성
총 40만건의 데이터 중 위의 설정한대로 추출하면 1700~1800(정확히 기억은 안납니다ㅠ)으로 그룹당 350?건 정도로 나타나는데요. 이렇게 샘플사이즈를 작게 책정하였을때 표본의 대표성이 떨어지는 문제가 발생할것으로 보이는데 이럴때는 어떻게 해야하나요?

4. 가설검정
다섯그룹의 평균차이검정을 실시하기위해 위의 샘플수를 추출한 뒤에 정규성검정을 시행하였는데 위배되었습니다. 따라서 비모수적인 방법을 사용하였는데요. 랜덤샘플링에 따라 결과가 어떻게 나타나는지 비교하기위해 10개의 데이터셋으로 샘플추출하여 분석하였는데요. 대부분의 경우 H0를 채택하였지만 간혹 H0를 기각하는 경우가 발생해서요. 이것도 표본의 대표성 문제인가요?!

답변주시면 감사드리겠습니다!

Posted by uniqueone
,